Методи та засоби сповільненого відтворення мовної інформації в інтерактивних системах керування
Розроблення теоретичних засад, методів керування сповільненим поданням усномовної інформації за умови збереження розбірливості та високої природності відтвореної мови. Формування класів звукових елементів зі спільними закономірностями часових перетворень.
Рубрика | Менеджмент и трудовые отношения |
Вид | автореферат |
Язык | украинский |
Дата добавления | 10.01.2014 |
Размер файла | 115,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Державний університет "Львівська політехніка"
Автореферат
дисертації на здобуття наукового ступеня
кандидата технічних наук
МЕТОДИ ТА ЗАСОБИ СПОВІЛЬНЕНОГО ВІДТВОРЕННЯ МОВНОЇ ІНФОРМАЦІЇ В ІНТЕРАКТИВНИХ СИСТЕМАХ КЕРУВАННЯ
Шпак Зореслава Ярославівна
Львів - 2000
Анотація
Шпак З.Я. Методи та засоби сповільненого відтворення мовної інформації в інтерактивних системах керування. - Рукопис.
Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.03 - системи та процеси керування. Державний університет "Львівська політехніка", Львів, 2000.
Дисертацію присвячено розробленню теоретичних основ, методів, алгоритмів та засобів сповільнення темпу подання голосових повідомлень в інтерактивних системах керування за умови збереження розбірливості та природності звучання відтвореної мови.
За результатами досліджень природних темпоральних трансформацій звуків української мови побудовано функції змін тривалостей мовних елементів. Розроблено новий метод сповільненого відтворення записів на основі диференційованого перетворення звукових елементів відповідно до побудованих функцій. В рамках методу розроблено алгоритми поділу мовного потоку на ділянки звуків та процедури адаптивних часових модифікацій цих ділянок зі збереженням природної структури їх сигналів. Вдосконалено лінійні методи збільшення тривалості аудіозаписів. Запропоновано схеми реалізації розроблених методів у реальному часі. Створено програмний комплекс для керування процесами часового масштабування голосових повідомлень. Результати роботи впроваджено в практичні технології опрацювання мовної інформації.
Ключові слова: інтерактивні системи керування, мовний сигнал, темпоральні трансформації, часове масштабування, сповільнене відтворення.
1. Загальна характеристика роботи
Актуальність теми. Важливою складовою задачею організації мовної комунікації в інтерактивних системах керування є забезпечення можливості управління швидкістю надходження голосових повідомлень. Це дозволяє встановлювати темп інформаційного обміну відповідно до функціональної спроможності оператора та завдань, які він виконує, і тим самим суттєво впливати на ефективність та якість процесів мовного керування, що має особливе значення в екстремальних ситуаціях. Часове масштабування мовних сигналів є також невід'ємною компонентою більшості технологій комп'ютерного опрацювання усної мови, як от: формування бажаного темпу в процесі синтезу голосових повідомлень, побудова темпоральних транскрипцій для аналізу і розпізнавання усної інформації, нормалізація тривалостей у процедурах ідентифікації мовців. Керування сповільненим відтворенням мовних записів є необхідним в автоматизованих навчальних системах, у процесах лікування заїкуватості, проведення фоноскопічних експертиз, опрацювання стенографічних текстів, синхронізації звукового супроводу з відеозображеннями та в багатьох інших сферах роботи з голосовою інформацією.
Практично всі напрацювання зарубіжних спеціалістів, присвячені проблемі часового масштабування мовних сигналів, передбачають рівномірну модифікацію тривалості мовних записів без урахування особливостей темпоральних змін окремих звуків. Ю. Рашкевичем запропоновано новий підхід, який базується на часовій трансформації мовного потоку, адаптованій до його звукового складу, і на основі цього підходу розв'язано задачу максимального скорочення часу відтворення мовних записів. Все ж, задача сповільнення швидкості надходження мовних повідомлень вимагає самостійного розгляду, оскільки, по-перше, природні процеси зменшення темпу мовлення характеризуються специфічними закономірностями перетворень структур звуків, по-друге, першочерговим завданням сповільнення є забезпечення високої розбірливості та натуральності звучання перетвореного мовного потоку, а також збереження просодичних особливостей вимови.
Отже, розроблення методів та засобів сповільненого відтворення мовної інформації, процеси якого базуються на притаманних українській мові природних темпоральних закономірностях, є важливою та актуальною задачею організації усномовного спілкування в інтерактивних системах керування.
Зв'язок роботи з науковими програмами, планами, темами. Дисертаційна робота безпосередньо пов'язана з виконанням держбюджетних тем Міністерства освіти України "Розробка математичних моделей засобів часового нормування мовних сигналів" (1991-1994 рр., номер держреєстрації 01920000555) і "Шифрування мовної інформації в телефонному каналі зв'язку" (1995-1996 рр., номер держреєстрації 0193U040269) та госпдоговірної теми "Підготовка фонограм до семантичного аналізу мовної інформації" з Львівським відділенням Київського НДІ судової експертизи (1993 р., номер держреєстрації 01920000555). Особистий внесок автора: теоретичні та експериментальні дослідження темпоральних характеристик мовних сигналів; розроблення алгоритмів і програмних засобів сегментації та часового перетворення мовних потоків; розроблення методики високоякісного сповільненого відтворення голосових записів.
Мета і задачі дослідження. Метою дисертаційної роботи є розроблення теоретичних засад, методів та засобів керування сповільненим поданням усномовної інформації за умови збереження розбірливості та високої природності відтвореної мови. Мета досягається розв'язанням таких задач:
визначення темпоральних характеристик структурних одиниць української мови, властивих сповільненим швидкостям мовлення;
дослідження природних темпоральних трансформацій структур мовних сигналів і формування класів звукових елементів зі спільними закономірностями часових перетворень;
розроблення методики сповільнення темпу відтворення мовних даних, що базується на диференційованому перетворенні тривалостей звуків різних класів, відповідному до їх природних трансформацій;
розроблення алгоритмів звукоподілу мовного потоку та процедур часового перетворення структур мовних елементів кожного темпорального класу;
вдосконалення алгоритмів лінійного збільшення тривалості мовних записів;
створення засобів для реалізації запропонованих методів та алгоритмів, їх практична апробація; впровадження результатів у науково-дослідні та інженерні проекти.
Об'єкт дослідження - процеси мовної комунікації в інтерактивних системах керування.
Предмет дослідження - сповільнене відтворення голосових повідомлень.
У дисертаційному дослідженні використано методи:
системного аналізу - для вибору ефективних рішень задачі часового масштабування усномовної інформації;
цифрового опрацювання мовних сигналів - для здійснення процесів звукоподілу мовного потоку та перетворення структур звукових ділянок;
математичного моделювання і обчислювальної математики - для побудови функцій темпоральних змін тривалості і виконання фіксованого часового масштабування мовних фрагментів;
математичної статистики - для опрацювання даних про темпоральні характеристики структурних елементів української мови;
аудіовізуального аналізу мовних сигналів - для ручного виділення звукових елементів у хвилі мовного сигналу і контролю процесів часових перетворень голосових записів;
аудиторських випробувань - для оцінки якості сповільнених мовних повідомлень.
Наукова новизна одержаних результатів. У процесі теоретичних та експериментальних досліджень отримано такі нові результати:
встановлено закономірності природних перетворень звукових структур української мови, спричинених сповільненням темпу мовлення, і визначено класи мовних елементів, що характеризуються спільністю темпоральних трансформацій;
побудовано аналітичні функції нормування тривалості та відносних темпоральних змін тривалості мовних елементів визначених класів і на основі цих функцій модифіковано метод адаптивного регулювання темпу мови для процесів сповільненого відтворення голосових повідомлень;
розроблено алгоритми поділу мовного потоку на звукові ділянки згідно з визначеним набором темпоральних класів та методику диференційованого часового перетворення структур цих ділянок;
запропоновано метод розрахунку внутрішнього коефіцієнта часового масштабування мовних фрагментів, який дозволяє здійснювати реалізацію диференційованих перетворень звуків у реальному часі;
розроблено алгоритм збільшення тривалості тональних звуків введенням композитних періодів основного тону, що адекватно відтворює природні процеси сповільнення.
Практична цінність одержаних результатів:
розроблений метод керування сповільненим надходженням мовних повідомлень, який базується на диференційованих перетвореннях структур звукових сигналів відповідно до природних темпоральних процесів, забезпечує високу розбірливість (не нижчу за 95%) та натуральність звучання перетвореної мови в широкому діапазоні значень коефіцієнта сповільнення (1,0-3,0), що повністю охоплює сферу практичних потреб;
вдосконалено лінійні методи збільшення тривалості мовних записів, зокрема розроблено алгоритм кореляційно узгодженого введення композитних сегментів, який зберігає регулярність структури звукових сигналів, що дозволило досягти 96% розбірливості мови у випадку двократного сповільнення темпу;
створено багатофункціональний програмний комплекс для моделювання та апробації методів і алгоритмів керування процесами часового масштабування мовних записів, на основі якого здійснено експериментальне тестування всіх запропонованих у роботі методів сповільненого відтворення мовних повідомлень;
розроблено схеми процесів реалізації запропонованих лінійних та адаптивних методів у регуляторах темпу мови (РТМ) реального часу за умови мінімізації місткості запам'ятовувальних пристроїв і сформульовано рекомендації щодо апаратної побудови РТМ;
результати дисертаційної роботи впроваджено у Львівській філії ЗАТ "Утел" для керування темпом озвучення мовних повідомлень, що подаються телефонною мережею; у лікарській практиці логопедичного кабінету 2-ї міської поліклініки м. Львова для корекції вад мови та слуху; в науково-дослідних роботах з проблем перетворення мовних сигналів, а також у навчальному процесі Державного університету "Львівська політехніка" - що підтверджено відповідними актами.
Особистий внесок здобувача. Всі основні положення дисертації, винесені на захист, розроблені автором самостійно. У друкованих працях, написаних у співавторстві, авторові дисертації належать:
- дослідження темпоральних характеристик мовних сигналів, функціональна схема пристрою;
- алгоритми та програмні реалізації процедур квазістаціонарної сегментації і часових перетворень мовних сигналів, проведення експериментів;
- формування навчальної та тестової вибірок, визначення оптимальних параметрів мережі;
- організація процесів запису-відтворення даних у пристрої пам'яті, структурна схема РТМ;
- набір програмних засобів для опрацювання і перетворення мовних сигналів.
Апробація результатів дисертаційної роботи. Основні результати дисертаційних досліджень доповідались та обговорювались на 7 міжнародних, 3 всесоюзних та 2 республіканських науково-технічних конференціях (НТК) та семінарах, а саме: 5-й Всесоюзній школі-семінарі "Розпаралелювання обробки інформації" (Львів, 1985); 11-му Міжнародному конгресі фонетичних наук (Таллінн, 1987); 14-й та 15-й Всесоюзних школах-семінарах "Автоматичне розпізнавання слухових образів" (АРСО) (Каунас, 1986, Таллінн, 1989); 1-й та 3-й Міжнародних конференціях "Проблеми українізації комп'ютерів " (Львів, 1991, 1993); 1-й, 3-й та 4-й Всеукраїнських Міжнародних конференціях "Оброблення сигналів і зображень та розпізнавання образів" (УкрОБРАЗ) (Київ, 1992, 1996, 1998); Міжнародних конференціях "Комп'ютерні технології друкарства, алгоритми, сигнали, системи" (Друкотехн) (Львів, 1996, 1998); 3-й Міжнародній школі моделювання (Алушта, 1998); Міжнародній НТК "Інформаційні системи та технології" (Львів, 1999); а також на НТК у Державному університеті "Львівська політехніка" (1986-1999).
Публікації. За темою дисертаційної роботи опубліковано 25 наукових праць, з них: 16 статей в наукових журналах та збірниках наукових праць, 1 авторське свідоцтво на винахід, 8 публікацій в збірниках матеріалів і тез конференцій.
Структура та обсяг роботи. Дисертаційна робота складається з вступу, чотирьох розділів, списку використаної літератури (128 найменувань), трьох додатків і викладена на 186 сторінках. Кількість ілюстрацій 52, таблиць 23.
2. Основний зміст роботи
У вступі висвітлено актуальність задачі часового масштабування мовної інформації, визначено мету та основні завдання дисертаційних досліджень, подано наукову новизну, практичне значення та апробацію результатів роботи.
У першому розділі розглянуто задачу регулювання швидкості надходження мовних повідомлень, проведено коротке дослідження процесів мовотворення, проаналізовано основні моделі та методи часової модифікації мовних сигналів.
Серед засобів інформаційного обміну в інтерактивних системах керування, навчальних та довідкових системах, АСУ, системах штучного інтелекту особливе місце посідає мовне спілкування, яке в багатьох випадках є оптимальною формою комунікації. Значний доробок у розвитку систем мовного діалогу належить колективами українських науковців, очолюваним Т. Вінцюком, В. Грициком, М. Деркачем, Ю. Рашкевичем. Окремою задачею, яка вирізняється широким колом практичних застосувань, є керування швидкістю надходження мовних повідомлень.
У процесах часового масштабування голосової інформації попередньо занесені у запам'ятовувальний пристрій мовні дані відтворюються на заданому часовому інтервалі, що пов'язане з проблемою перенесення початкового спектрального складу звуків на модифікований мовний сигнал. За способом виконання перетворень відомі методи часового масштабування можна поділити на дві основні групи: перша включає методи модифікації мовних сигналів у часовій області (вибіркова сегментація, перекривання з сумуванням сигналів, кореляційний зсув ділянок, синхронізація з основним тоном (ОТ)); методи другої групи базуються на принципах короткочасового аналізу і наступного синтезу мовних сигналів на основі різних форм параметричного опису (гармонічного, короткочасового перетворення Фур'є, кепстрального, лінійної комбінації синусоїдних хвильових компонент та ін.). Перетворення у часовій області (їх використано в розроблених у дисертації методах та алгоритмах) максимально зберігають параметри мовних сигналів, а тим самим оригінальність голосу мовця. Системи аналізу-синтезу дозволяють розв'язати задачу забезпечення гладкості перетвореного мовного сигналу, але вносять у нього елементи синтетичності і є обчислювально складними для реалізації в реальному часі.
Незважаючи на різноманітність моделей та технологій перетворення сигналів, всі згадані методи здійснюють рівномірну (лінійну) зміну часової шкали мовних записів, що обмежує діапазон їх застосування. Найбільш перспективним є адаптивний підхід, який базується на кусково-постійній моделі мовного сигналу. Зміна часу відтворення мовного повідомлення, яке розглядається як послідовність мовних елементів з однорідною структурою, здійснюється вибірковим масштабуванням тривалості кожного мовного елемента. Часове перетворення елемента залежить від його звукового класу та початкової тривалості. Спрощеними варіантами даного підходу є відомі методи нелінійних перетворень та граничних скорочень квазістаціонарних ділянок. Якість промасштабованого запису (особливо у випадках коефіцієнтів зміни темпу більших за 2,0) визначається адекватністю перетворень структур звуків до природних темпоральних процесів.
У другому розділі проведено експериментальні та теоретичні дослідження природних перетворень структурних елементів української мови, спричинених сповільненням темпу мовлення. Виділено класи мовних елементів зі спільними закономірностями темпоральних перетворень і побудовано аналітичні функції змін тривалостей для звуків вказаних класів.
Визначено середньостатистичні характеристики тривалості мовних одиниць для основних темпів вимови: звичайного (середня швидкість мовлення 3,7 складів/с), швидкого (5,3), повільного (2,5) та протяжного (1,3). Незважаючи на високу варіативність швидкісних показників окремих мовців, для них зафіксовано достатньо подібні значення коефіцієнтів сповільнення (КС), які усереднено становлять 1,43 у випадках переходу від швидкого до розмовного мовлення та 1,46 при переході від розмовної до протяжної вимови.
Найбільших часових трансформацій в процесах природного сповільнення темпу мовлення зазнають міжслівні паузи, відсоток яких зростає з 9,5% (швидкий темп) до 29,3% (повільне мовлення). У протяжному мовленні частка пауз зменшується до 20,2% (табл. 1), а домінують тональні звуки, які сумарно займають понад 65% тривалості мовного потоку.
Невеликі зміни темпу (КС не перевищує 1,6) викликають подібні часові модифікації всіх звуків. У більших діапазонах сповільненнях залежність зміни тривалості звуку від загального КС стає нелінійною і проявляються розбіжності у темпоральних перетвореннях звуків різної артикуляційно-акустичної природи. У разі переходу до протяжного мовлення ці розбіжності набувають принципового характеру. Так, тривалості голосних звуків зростають більше ніж у 5 разів порівняно зі швидким темпом, у той час як збільшення глухих приголосних не перевищують двократні. Відзначено істотні відмінності у темпоральних трансформацій мовних елементів для випадків сповільнення та прискорення швидкості мовлення.
Встановлено важливу закономірність близькості коефіцієнтів відносної зміни тривалості (без огляду на різницю у значеннях абсолютної тривалості) для звуків з подібними механізмами формування. Це дозволило об'єднати всі звуки в чотири темпоральні класи: наголошені голосні, ненаголошені голосні, тональні приголосні (сонорні та дзвінкі звуки), шумні приголосні (глухі щілинні, зімкнені та африкати). Ще два окремі класи утворюють паузи зімкнення та міжслівні паузи.
Залежність часової модифікації звуку від значення загального КС названо функцією відносної зміни тривалості (ФВЗТ). За даними опрацьованого мовного матеріалу для елементів кожного темпорального класу визначено середні коефіцієнти збільшення тривалості елементів в основних сповільнених темпах відносно значень, властивих швидкому мовленню. Ці коефіцієнти формують вузлові точки для побудови аналітичних виразів ФВЗТ: кусково-лінійних, степеневих (на основі полінома Лагранжа), сплайнових (кусково-нелінійних). Сплайнова інтерполяція (рис.1) є узагальненням двох інших і забезпечує найкраще наближення реальних темпоральних процесів. ФВЗТ звуку задається набором (m-1) нелінійних ділянок, кожну з яких описано кубічним поліномом:
sj = sj(i)(k) = a0(j,i) + a1(j,i)(k-ki-1) + a2(j,i)(k-ki-1)2 + a3(j,i)(k-ki-1)3,
, ki-1Ј k< ki , (1)
де sj - коефіцієнт відносної зміни тривалості звуку класу j у разі сповільнення темпу в k разів;
- коефіцієнти і-го полінома;
K - кількість темпоральних класів; m - кількість вузлових точок.
Для врахування природних властивостей обмеженого зростання тривалості початково довгих мовних елементів (подовжених приголосних, голосних під інтонаційним наголосом, синтагматичних пауз та ін.) введено функцію нормування тривалості h(t). Загалом, перетворена тривалість tisl i-го мовного елемента визначається значенням загального КС k, темпоральним класом даного елемента та його початковою тривалістю ti:
,(2)
де Tj(t,k) - функція темпоральної зміни тривалості звуків j-го класу;
tnrm=hj(t) - пронормоване значення тривалості мовного елемента.
Аналіз впливу сповільнення швидкості мовлення на зміни у спектральній структурі тональних і шумних звуків показав, що основні частотні характеристики звуків, зокрема формантні частоти, практично залишаються незмінними. Стабільною залишається також загальна форма мелодичних контурів ОТ як окремих звуків, так і цілих фраз. Здебільшого сповільнення проявляється в рівномірному розтягуванні стаціонарних частин звуків, а зміни тривалостей перехідних ділянок є нерегулярними та істотно меншими.
Зроблено загальний висновок, що в процесі сповільненого відтворення голосових записів повинна здійснюватись диференційована зміна тривалостей звукових елементів за умови збереження природної структури їх сигналів.
Третій розділ присвячено розробленню методів сповільненого відтворення мовних повідомлень та алгоритмів реалізації складових процедур цих методів.
Здійснення часового перетворення мовного потоку, адекватного до його звукового складу, передбачає виконання декількох базових процедур:
1) поділ мовного потоку на звукові елементи згідно з визначеним у набором темпоральних класів;
2) розрахунок промасштабованої тривалості кожного мовного елемента за відповідною до його темпорального класу ФВЗТ з урахуванням часового нормування (2) для звуків, тривалість яких виходить за встановлені межі;
3) диференційоване перетворення структур звукових ділянок, при якому забезпечується необхідне значення коефіцієнта збільшення тривалості звуку і водночас зберігаються природні параметри мовного сигналу цього звуку.
Для реалізації першої процедури розроблено алгоритм звукоподілу, який послідовно виконує такі дії:
а) виділення з мовного потоку ділянок пауз;
б) поділ звукових ділянок на квазістаціонарні сегменти, що характеризуються однорідністю спектральних параметрів;
в) визначення типів виділених сегментів і формування з них мовних елементів зі спільними темпоральними перетвореннями.
Визначення меж ділянок пауз здійснюється алгоритмом через порівняння поточних значень короткочасної енергії та кількості перетинів нульового рівня (КПНР) зі встановленими порогами: leu - верхнім порогом миттєвої енергії, перевищення якого є гарантованою ознакою звукової ділянки; lel - нижнім енергетичним порогом, що відповідає переходам пауза/звук; lpu, lpl - відповідно верхнім і нижнім порогами КПНР, які дозволяють виділити границі низькоенергетичних шумних і тональних звуків. Значення порогів оновлюються в процесі виділення кожної міжслівної паузи, щоби врахувати динаміку зміни фонового шуму.
Формування квазістаціонарних сегментів, на які розбиваються звукові ділянки мовного потоку, проводиться шляхом долучення до складу поточного квазістаціонара послідовних мікроінтервалів аналізу за умови, що девіація їх параметрів і параметрів вже включених мікроінтервалів не перевищує заданого значення міри відмінності. В алгоритмі сегментації передбачено ітераційне уточнення границь квазістаціонарних сегментів.
Для оцінки результатів сегментації введено поняття приведеної похибки:
ms=(ams1Nms1+ ams2Nms2)/Ns ,(3)
де Nms1 - кількість пропусків звукових границь;
Nms2 - кількість "надлишково" виділених сегментів;
Ns - кількість сегментів, виділених у процесі ручного аудіовізуального поділу мовної хвилі;
ams1, ams2 - вагові коефіцієнти.
За результатами моделювання відзначено дві міри відмінності, які забезпечують найкращі для процесів звукоподілу результати сегментації. Перша міра (обчислювально простіша) використовує як критерій відмінності евклідову віддаль між пронормованими векторами функцій автокореляції; друга міра (менш залежна від індивідуальних характеристик запису) базується на відносній похибці прогнозу поточного мікроінтервалу аналізу за коефіцієнтами лінійного передбачення базового.
Звуковий тип p квазістаціонарного сегмента x визначається за максимумом інтегральної функції подібності G(x,p), яка задається лінійною сумою незалежних мір подібності gu(p)(u) параметрів аналізу цього сегмента, зважених відповідними параметричними коефіцієнтами wu(p):
(4)
де dE - відносна енергії сегмента;
C - приведена КПНР;
k1, a1 -перші коефіцієнти відповідно параметрів відбиття та системи лінійного передбачення;
DS - різниця спектральних енергій у сусідніх частотних зонах; B={b1b2b3b4b5} - двійковий опис форми енергетичного спектра;
P - набір заданих звукотипів.
Коефіцієнт wu(p) визначає вагу параметра u у встановленні звукотипу pО P: . Параметричні міри подібності задаються наборами значень:
,(5)
де 0Јmi(u,p)Ј1 - ймовірність належності сегмента x до звукотипу p за умови, що параметр u потрапляє у задану область Ui(p).
У кількакроковому процесі формування з визначених квазістаціонарів мовних елементів (згідно з встановленим набором темпоральних класів) порівнюються звукотипи і параметри, важливу роль серед яких відіграє тривалість, поточного сегмента і сусідніх з ним мовних елементів.
Для збереження природних особливостей структур звуків різного походження (передусім тональних і шумних) розроблено процедури диференційованої модифікації мовних сигналів ділянок звуків і пауз. Схеми перетворення структур мовних елементів у цих процедурах передбачають обмежене збільшення перехідних ділянок і рівномірне часове розтягування стаціонарних частин звуків.
Удосконалено відомі і розроблено нові лінійні методи часового масштабування мовних сигналів з метою використання їх як для перетворень ділянок мовних елементів, так і для цілісного сповільнення мовних записів. Зокрема, щоб зняти шум, викликаний амплітудними розривами у методі вибіркової сегментації, запропоновано у місцях введення ділянок повторення формувати короткі перехідні зони на основі методики перекривання з сумуванням. Визначено оптимальні (залежно від значення КС) тривалості ділянок: оригінальної, повторення та переходу. Даний метод використано в процедурі збільшення тривалостей пауз.
У процедурі перетворення шумних звуків, сигнали яких вирізняються наявністю випадкових високочастотних складових, запропоновано здійснювати амплітудно-фазове узгодження сигналів у місцях з'єднань оригінальних ділянок і сегментів повторення через визначення на кінцях ділянок точок однакового перетину рівня нуля.
Визначальними для якості звучання сповільненого мовного запису є перетворення тональних звуків. В дисертації розроблено новий алгоритм збільшення тривалості тональних ділянок сигналів введенням композитних періодів ОТ (КПОТ). Тривалість КПОТ Tcmp приймається рівною півсумі тривалостей сусідніх оригінальних періодів ОТ (ПОТ), між якими вводиться композитний, а формування сигналу КПОТ здійснюється накладанням зважених сигналів цих періодів, приведених до тривалості Tcmp:
(6)
де x(i)cmp(t) - сигнал і-го КПОТ; x(t) - оригінальний мовний сигнал;
to(i) - момент початку (точка максимуму) ПОТ, що передує композитному;
to(i+1) - початок наступного ПОТ, перед яким вводиться композитний;
DT0(i)=(T0(i+1)- T0(i)) - різниця тривалостей сусідніх ПОТ;
- функція зважування компонуючих періодів;
T(i)cmp=(T0(i)+T0(i+1))/2 - тривалість поточного КПОТ.
Необхідність масштабування оригінальних ПОТ у процесі формування композитного викликана можливою різницею їх тривалостей, яка може досягати 10-12% від тривалості ПОТ. Оскільки в реальних обчисленнях робота здійснюється з продискретизованим сигналом, то масштабування потребує інтерполяційного визначення проміжних відліків оригінальних ПОТ.
Щоб найповніше зберегти оригінальні параметри сигналу, КПОТ вводяться у пікових точках ПОТ (рис.3), а кількість їх повторень при кожному введенні визначається з умови забезпечення заданого КС звуку. Запропоновано швидкий алгоритм, який дозволяє з мінімальними обчислювальними витратами виділяти послідовності ПОТ у сигналах тональних звуків.
Перетворення звуків напівтональної природи та перехідних ділянок звуків, в яких ОТ є невиразним, здійснюються на основі методу кореляційно узгодженого введення ділянок повторення, який є розвитком методу формування перехідних зон. Точка введення ділянки повторення вибирається з умови узгодження сигналів звукових сегментів, що взаємно накладаються при формуванні композитних перехідних зон, - максимізації функції взаємної кореляції цих сегментів:
(7)
де Dcor - кореляційне зміщення сегментів (в дискретах);
Ncor - діапазон пошуку точки найкращого узгодження сигналів (відповідний до максимальної довжини ПОТ);
Ntrs - довжина перехідного сегмента;
- точка планового введення і-ої ділянки повторення;
- початкове зміщення компонуючих сегментів.
У четвертому розділі описано розроблені програмні засоби для дослідження темпоральних характеристик структурних елементів мовних записів та апробації методів часового масштабування; запропоновано схеми процесів реалізації лінійних та адаптивних методів сповільненого відтворення мовних даних у реальному часі; наведено результати аудиторських випробувань.
Розроблено набір програм для визначення часових характеристик структурних одиниць української мови у різних темпах мовлення та аналізу змін їх тривалостей, визначення груп звуків зі спільними закономірностями темпоральних перетворень, розрахунку коефіцієнтів ФВЗТ і функцій нормування тривалостей, дослідження впливу темпу мовлення на частотні характеристики звуків, зокрема на параметри ОТ.
Програми часового масштабування мовних записів та необхідного для цього опрацювання звукових сигналів об'єднано в багатофункціональний програмний комплекс, який доповнено інструментальними засобами для редагування, візуалізації та озвучення мовних сигналів. Функціональну основу комплексу становить набір програм для реалізації лінійних та адекватних до структур звукових потоків часових перетворень мовних записів, в т.ч. здійснення процедур звукоподілу та диференційованого збільшення тривалості мовних елементів. Віконний інтерфейс програмного комплексу дозволяє керувати процесами часового масштабування, покроково контролювати хід процедур виділення мовних елементів і перетворення їх структур, графічно відображати та прослуховувати результати часових модифікацій мовних записів, формувати протоколи перетворень. Програмний комплекс створено засобами об'єктно-орієнтованого програмування в середовищі Borland C++ 4.5. На основі комплексу здійснено відлагодження та перевірку всіх запропонованих у дисертації методів та алгоритмів з вибором параметрів, оптимальних для кожної задачі.
Лінійні методи сповільнення можна ефективно реалізувати в РТМ реального часу на основі спеціальної організації процесів запису і відтворення даних у пристрої пам'яті (ПП) РТМ. Для методу регулярного повторення ділянок і методу формування перехідних зон необхідна місткість ПП визначається розміром ділянки повторення. Апаратну реалізацію цих методів доцільно виконувати на спеціалізованих надвеликих інтегральних схемах (ІС), використовуючи векторну пам'ять для збереження поточних відліків мовного сигналу.
У схемах реалізації методу кореляційно узгодженого накладання ділянки повторення, який підтримує природну регулярність структури сигналу тональних звуків, враховано часові витрати на розрахунок оптимального зміщення ділянок. Розроблено окремі процедури реалізації даного методу залежно від заданого значення КС. Визначено вимоги щодо швидкодії (3,5Ч106 операцій/с) та місткості ПП (1,2 кбайт) РТМ, побудову якого рекомендується здійснювати на основі програмованих логічних ІС доповнених апаратним розширювачем арифметичних операцій.
Проблемою реалізації методу диференційованих перетворень звукових елементів у реальному часі є апріорна невизначеність часу відтворення мовних фрагментів (МФ), на які розбивається мовний потік у процесі часового масштабування, пов'язана з випадковістю звукового складу кожного МФ. Оскільки за час відтворення поточного фрагмента Tout здійснюється запис у ПП відліків наступного МФ, то непостійність Tout призводить до порушення плинності відтвореної мови. Запропоновано прийняти тривалість МФ рівною середній тривалості синтагми (2,5-3,5 с), яка є фонетично повною мовною конструкцією. Це дозволяє здійснювати фіксоване часове масштабування (згідно з заданим КС k) всіх МФ, зберігаючи в межах фрагмента природну співзвучність окремих мовних елементів. Для кожного МФ визначається внутрішній коефіцієнт часового масштабування kfr, відповідно до якого за співвідношенням (2) обчислюються значення перетвореної тривалості звуків. Коефіцієнт kfr визначаємо з рівняння
,(8)
де rj - частка пронормованих звуків класу j в загальній тривалості даного МФ.
Метод розв'язку (8) залежить від способу аналітичного опису ФВЗТ sj(kfr).
У РТМ, що здійснюють адекватні до звукової структури перетворення МФ, процеси запису, опрацювання і відтворення мовних даних (рис.5) повинні бути суміщеними в часі.
Рис. 1. Схема процесу сповільненого відтворення мовного повідомлення
Запропоновано двоблокову організацію роботу ПП: одночасно з опрацюванням в одному з блоків і-го МФ в іншому здійснюються процеси зчитування (з часовою модифікацією і передаванням у вихідний буфер РТМ) виділених мовних елементів попереднього (і-1)-го МФ та запису на їх місце відліків наступного (і+1)-го МФ. Апаратну реалізацію РТМ з диференційованим перетворенням звуків доцільно виконувати на основі багатопортової пам'яті (місткістю 140-200 кбайт) та мікропроцесорів цифрового опрацювання сигналів (необхідна швидкодія - 5Ч106 операцій/с).
Результати аудиторських випробувань розроблених лінійних та адаптивних методів зменшення швидкості відтворення мовних записів показали, що метод формування перехідних зон можна застосовувати для сповільнень, які не перевищують двократні; у разі використання методу кореляційно узгодженого накладання сегментів зберігається добра розбірливість мови (не нижча за 91%) для КС до 2,5; застосування методу диференційованого перетворення звукових ділянок дозволяє здійснювати високоякісне відтворення мовних записів навіть при трикратному сповільненні (розбірливість 95%).
Висновки
У дисертаційній роботі здійснено теоретичне обгрунтування і запропоновано нове вирішення задачі керування сповільненим відтворенням мовної інформації, яке полягає в розробленні методів та алгоритмів опрацювання і диференційованого часового перетворення звукових сигналів відповідно до природних темпоральних процесів, що дозволяє значно розширити сферу застосування засобів часового масштабування мовних повідомлень в інтерактивних системах керування. Основні результати роботи:
1. На основі статистичного аналізу наборів мовних записів визначено усереднені значення часових характеристик структурних одиниць української мови для різних темпів мовлення.
2. Досліджено властивості перетворень структур звуків у процесі сповільнення темпу мовлення. Випробуваннями підтверджено, що основні спектральні характеристики мовних сигналів, зокрема обриси мелодичних контурів ОТ та формантні частоти, залишаються практично незмінними в умовах зменшення швидкості мовлення. Встановлено важливу закономірність близькості значень відносних змін тривалості при сповільненні темпу для звуків, які характеризуються подібністю артикуляційно-акустичних механізмів формування, що дозволило об'єднати всі мовні елементи в шість темпоральних класів: наголошені голосні, ненаголошені голосні, тональні приголосні, шумні приголосні, паузи зімкнення та міжслівні паузи.
3. Для вказаних темпоральних класів побудовано нелінійні аналітичні функції залежності відносних змін тривалостей звуків від значення загального коефіцієнта сповільнення та функції нормування тривалості, які обмежують часове розтягування початково довгих звуків та пауз.
4. Розроблено новий метод сповільнення, який відтворює природні закономірності темпоральних трансформацій мовного потоку на основі диференційованого збільшення часу звучання мовних елементів відповідно до побудованих функцій зміни тривалості. Експериментально підтверджено, що розроблений метод забезпечує високу натуральність звучання та розбірливість (не нижчу за 95%) відтворених мовних записів в діапазоні сповільнення від 1,0 до 3,0.
5. Для здійснення диференційованого часового масштабування мовних записів розроблено алгоритм звукоподілу, який послідовно виділяє з мовного потоку ділянки пауз і квазістаціонарні сегменти звуків та формує з них мовні елементи згідно з встановленим набором темпоральних класів.
6. Розроблено алгоритми адаптивних часових модифікацій структур звуків різної природи: тональних, шумних, напівтональних та пауз, які здійснюють обмежене перетворення перехідних ділянок звуків і підтримують стабільність спектрального складу та мелодики стаціонарних ділянок.
7. Розроблено алгоритм швидкого визначення піків мовних сигналів на періодах основного тону (ПОТ) для вибору точок введення та формування структур додаткових композитних ПОТ у процедурах перетворення тональних звуків.
8. Запропоновано методику розрахунку внутрішнього коефіцієнта часового масштабування мовних фрагментів фіксованої тривалості, яка дозволяє здійснювати реалізацію методу диференційованих перетворень звуків у реальному часі.
9. Запропоновано нові вирішення лінійних методів збільшення тривалості мовних записів з метою підвищення якості відтвореної мови, зокрема:
метод регулярного повторення мовних сегментів доповнено процедурою формування коротких перехідних зон, що забезпечило збільшення розбірливості до 90% (порівняно з 82% у традиційних методах) у разі двократного сповільнення швидкості відтворення запису;
для максимального збереження тональної структури звуків попередній метод вдосконалено кореляційним визначенням точок введення перехідних сегментів, що дозволило досягти 91% розбірливості у випадку сповільнення темпу в 2,5 рази.
Розроблено схеми процесів реалізації вказаних методів у РТМ реального часу за умови мінімізації місткості запам'ятовувальних пристроїв.
10. Створено багатофункціональний програмний комплекс, призначений для відлагодження та апробації алгоритмів перетворення мовних сигналів у процесах часового масштабування усномовної інформації. Засобами комплексу здійснено тестування та вибір оптимальних параметрів для розроблених у дисертації методів сповільнення темпу надходження мовних повідомлень.
11. Результати дисертаційних досліджень та розроблені програмні засоби впроваджено в систему керування швидкістю подання мовних повідомлень абонентам телефонної мережі, в практику фоноскопічних судово-криміналістичних експертиз, у логопедичну систему виправлення вад мовлення та слуху, в навчальну систему з вивчення іноземних мов.
керування звуковий мова інформація
Список основних опублікованих праць здобувача за темою дисертації
1. Шпак З.Я. Модель сповільнення темпу подання мовної інформації // Вісник Державного університету "Львівська політехніка": Комп'ютерна інженерія та інформаційні технології. - Львів, 1998. - №351. - С. 98-106.
2. Шпак З.Я. Синхронне з основним тоном збільшення часового масштабу мови // Вісник Державного університету "Львівська політехніка": Комп'ютерна інженерія та інформаційні технології. - Львів, 1998. - №351. - С. 177-185.
3. Шпак З.Я. Сповільнене відтворення мовних даних зі збереженням структури звукових ділянок // Вісник Державного університету "Львівська політехніка": Комп'ютерна інженерія та інформаційні технології. - Львів, 1999. - №370. - С. 153-160.
4. З. Шпак. Фіксоване часове масштабування фрагментів мовного потоку на основі адаптивного підходу // Вісник Державного університету "Львівська політехніка": Комп'ютерна інженерія та інформаційні технології. - Львів, 1999. - №380. - С. 101-109.
5. З. Шпак. Зміна темпу мовної інформації введенням перехідних періодів основного тону // Комп'ютерні технології друкарства: Зб. наук. пр. - Львів: Українська академія друкарства, 1998. - С. 27-31.
6. Ю. Рашкевич, Я. Гнатів, Р. Марцишин, З. Шпак. Регулювання темпу мовної інформації // Праці Першої всеукр. конф. "Обробка сигналів і зображень та розпізнавання образів" (УкрОБРАЗ-92). Київ: Ін-т кібернетики ім. В.М. Глушкова НАН України. - 1992. - С. 139-140.
7. З. Шпак. Алгоритм сегментації звукового потоку для задач регулювання темпу мови // Вісник Державного університету "Львівська політехніка": Комп'ютерна інженерія та інформаційні технології. - Львів, 1999. - №386. - С. 160-164.
8. Шпак З.Я. Аналіз темпоральних особливостей мовного потоку для відтворення мови у зміненому часовому масштабі // Вісник Державного університету "Львівська політехніка": Комп'ютерна інженерія та інформаційні технології. Львів, 1997. - №322. - С. 179-185.
9. Шпак З.Я., Сосницкий С.А. Сегментация речевых сигналов для управления темпом воспроизведения речи // Вестник Львовского политехн. ин-та: Технические средства автоматизации измерений и управления научными исследованиями. - Львов, 1990. - №248. - С. 143-146.
10. Рашкевич Ю.М., Шпак З.Я. Регулирование темпа подачи речевой информации // Распознавание и синтез звуковых образов: Сб. науч. тр. - Киев: Ин-тут кибернетики им. В.М.Глушкова АН УССР, 1987. - Ч.ІІ. - С. 70-77.
11. Гнатив Я.Н., Рашкевич Ю.М., Шпак З.Я. Методы нелинейных преобразований временной оси речевых сигналов // Речевая информатика: Сб. науч. тр. - Киев: Ин-т кибернетики им. В.М. Глушкова АН УССР, 1989. - С. 105-109.
12. Ю. Рашкевич, Р.Ткаченко, З. Шпак. Часова трансформація мовних сигналів на основі нейронних мереж // Праці Четвертої всеукр. міжнар. конф. "Оброблення сигналів і зображень та розпізнавання образів" (УкрОБРАЗ'98). - Київ, 1998. - С. 75-76.
13. Gnativ T.N., Rashkevich Y.M., Shpak Z.Y. A Device for Correction of Rhythmical Disorders of Speech Functions // Proc. of XI-th ICPhS: The Eleventh International Congress of Phonetic Sciences. - Tallinn (USSR). - 1987. - Vol. 1. - P. 206-209.
14. Гнатив Я.Н., Шпак З.Я. О плавности регулирования темпа речевых сообщений // Контрольно-измерительная техника. - Львов: Вища школа. - 1988. - Вып.43. - С. 68-70.
15. Устройство для изменения темпа речевой информации: А.с. 1173438 СССР, МКИ3 G 10 L 3/02 / Я.Н. Гнатив, Ю.М. Рашкевич, З.Я. Шпак (СССР). - №1352522; Заявлено 05.03.86; Опубл. 15.11.87, Бюл. №42. - 3 с.
16. Марцишин Р.С., Стареправо І.В., Шпак З.Я. Багатовіконний редактор звукових сигналів // Наукові праці конф. "Комп'ютерні технології друкарства, алгоритми, сигнали, системи" (Друкотехн-96). Львів: Українська академія друкарства, 1996. - С. 73-74.
17. Б. Демида, Р. Марцишин, Ю. Рашкевич, З. Шпак. Обробка мовної інформації на IBM PC // Тези доповідей Третьої міжнар. конф. "Проблеми українізації комп'ютерів". Львів, 1993. - С. 43-44.
Размещено на Allbest.ru
...Подобные документы
Характеристика організаційних структур та методів керування. Види і характеристика організаційних структур керування. Методи керування і їхні характеристики. Структура керування ТОВ "Україна" та її реструктуризація. Організаційна структура управління. Рес
курсовая работа [35,1 K], добавлен 07.04.2003Зміст поняття "керування документацією". Стандарт ISO 15489-2001 і його національний аналог. Історія, етапи розвитку та досвід керування документацією в зарубіжних країнах. Формування і розвиток систем керування документаційними процесами в Україні.
курсовая работа [41,1 K], добавлен 04.04.2012Поняття комерційного шпигунства та комерційної таємниці згідно законодавства. Інформація, яку не можна розголошувати. Заходи по забезпеченню конфіденційності комерційної таємниці підприємства. Перелік сучасних методів забезпечення безпеки інформації.
реферат [53,6 K], добавлен 14.07.2016Основні поняття стимулу, мотиву, мотиваційної структури. Форми й методи системи мотивації трудової активності та роль керівника в організації керування персоналом. Значення й сутність економічних показників діяльності торговельного підприємства.
дипломная работа [1,0 M], добавлен 23.09.2011Дослідження тенденцій світового менеджменту та особливостей становлення соціально-економічного управління в Україні. Розгляд методів створення ефективної системи керування виробництвом. Вивчення попереднього досвіду формування ринкового середовища.
реферат [48,5 K], добавлен 16.10.2010Узагальнення теоретичних засад інформаційного забезпечення управління рекламною агенцією. Дослідження систем і методів обробки інформації в рекламній агенції. Виокремлення напрямків удосконалення інформаційного забезпечення управління даною організацією.
курсовая работа [2,0 M], добавлен 11.11.2014Керування якістю, як основа підвищення конкурентноздатності продукції. Концепція й ідеологія загального керування якістю. Практичні підходи до керування якістю. Організація контролю якості на підприємстві. Розробка механізму попередження браку продукції.
дипломная работа [446,8 K], добавлен 15.06.2009Управлінське документознавство як наукова дисципліна. Сутність документаційного процесу, його законодавчо-нормативна база та методика керування ним. Керування документацією в міжнародному стандарті. Напрямки розвитку електронного документообігу.
курсовая работа [33,0 K], добавлен 31.03.2012Дослідження процесу управління проектом - діяльності, спрямованої на ефективну реалізацію проекту. Аналіз методів керування, їх класифікації, життєвого циклу, формування бюджету. Порядок розробки проектної документації. Автоматизація проектних робіт.
курсовая работа [641,5 K], добавлен 01.02.2010Сучасні методи прийняття рішень, їх адаптація до управлінського процесу в організаціях. Дослідження операцій - наука про обґрунтування і прийняття рішення. Методи керування в системі економічних рішень в Україні, процес прийняття державних рішень.
контрольная работа [27,4 K], добавлен 16.01.2012Юридичний статус та мета діяльності підприємства. Функції заступника директора з підготовки виробництва. Системний і комплексний характер використання методів керування. Система планування в будівництві. Економічні показники діяльності, обігові кошти.
отчет по практике [1,4 M], добавлен 15.12.2013Керування посадовою ієрархією (грейдинг) і керування талантами. Розробка системи управління персоналом підприємства. Кількісна потреба в персоналі. Оцінка діяльності й особистих якостей працівників підрозділу, надійності кожного працівника підприємства.
курсовая работа [82,7 K], добавлен 26.11.2010Статут підприємства. Організаційна структура керування підприємством. Життєздатність підприємств різної форми власності. "Тверді" і "м'які" організаційні структури. Джерелом формування майна товариства. Внесення коштів до статутного фонду.
отчет по практике [48,8 K], добавлен 08.08.2007Характеристика організації процесів керування документацією, виявлення перспективних напрямів її удосконалення. Організаційні засади керування документаційними процесами в органах державної влади України. Сучасні системи електронного документообігу.
курсовая работа [108,4 K], добавлен 04.11.2015Система збирання, використання та зберігання інформації. Тип та обсяги необхідної для стратегічної діяльності інформації. Запобігання негативного ефекту впливу недостовірної інформації на рішення, що приймаються. Дослідження проміжного середовища.
контрольная работа [156,2 K], добавлен 13.08.2008Коротка характеристика підприємства "Цукровий комбінат". Організація виробництва продукції. Персонал підприємства й оплата його праці. Матеріальне й моральне стимулювання персоналу. Організаційне керування етапами проекту. Фінансові показники діяльності.
курсовая работа [747,4 K], добавлен 17.03.2011Середовище і стратегії виробничого планування. Керування трудовими ресурсами. Комплектування штату організації. Методи дослідження ринку збуту. Інструменти політики ціни й умов. Методика визначення та оптимізації цінової та кадрової політики підприємства.
дипломная работа [1,1 M], добавлен 09.03.2013Зміна елементів процесу організації. Зовнішні чинники необхідності змін: глобалізація ринку, інформаційні технології та комп'ютеризація, зміни на ринку робочої сили. Модель процесу організаційних змін. Типові організаційні задачі керування змінами.
реферат [24,0 K], добавлен 19.10.2010Семантичні простори і психологічне градуювання. Методи багатовимірного градуювання. Метод репертуарних решіток: основні поняття, порядок виявлення конструктів, аналіз репертуарних решіток. Методика керування знаннями. Візуальне проектування баз знань.
курсовая работа [63,2 K], добавлен 12.01.2011Особливості формування системи керування персоналом. Показники, що забезпечують моніторинг. Аналіз системи управління персоналом ООО "Юнігран". Місія комбінату за категоріями зацікавлених груп. Дослідження загальної кадрової політики підприємства.
дипломная работа [430,5 K], добавлен 22.11.2013