Методи опрацювання зображень текстів арабської абетки
Розробка інформаційної технології, методів опрацювання змазаних і дефокусованих зображень арабського тексту для покращення їх автоматичного розпізнавання. Характеристики арабських текстів та розпізнавання символів на основі послідовностей Фрімана.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | украинский |
Дата добавления | 29.08.2015 |
Размер файла | 1,1 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Національний університет Львівська політехніка
УДК 682.03
Автореферат
дисертації на здобуття наукового ступеня
кандидата технічних наук
Спеціальність 05.13.06 - Інформаційні технології
Методи опрацювання зображень текстів арабськоїї абетки
Імад І. А. Сбіех
Львів - 2008
Дисертація є рукописом
Робота виконана в Національному університеті “Львівська політехніка” Міністерства освіти і науки України
Науковий керівник: доктор фізико-математичних наук, професор Ємець Володимир Федорович Національний університет “Львівська політехніка” професор кафедри електронних обчислювальних машин
Офіційні опоненти: доктор технічних наук, професор Тимченко Олександр Володимирович, Національний університет “Львівська політехніка”, професор кафедри телекомунікацій кандидат технічних наук, доцент Березький Олег Миколайович Тернопільський національний економічний університет доцент кафедри інформаційно-обчислювальних систем та управління
Захист відбудеться “ 30 ” вересня 2008р. о 16.00 на засіданні спеціалізованої вченої ради Д35.052.14 у Національному університеті “Львівська політехніка” (79013, м. Львів, вул. Степана Бандери 28а, ауд. 807, V корпусу).
З дисертацією можна ознайомитися в бібліотеці Національного університету “Львівська політехніка” (вул. Професорська 1, м. Львів, 79013).
Автореферат розісланий “ 27 ” серпня 2008р.
Вчений секретар спеціалізованої вченої ради, к. т. н., доцент А.Є. Батюк.
Загальна характеристика роботи
Актуальність теми. Завдання розпізнавання і перетворення текстової інформації при перекладі друкованого і рукописного тексту в машинні коди є одним з найважливіших складових проектів, що мають на меті автоматизацію документообігу. Разом з тим це завдання є одним з найбільш складних і наукоємних в області автоматичного аналізу зображень. Навіть людина, що читає рукописний текст, у відриві від контексту робить в середньому до 4% помилок. Що стосується систем зчитування друкарських документів, то в таких відповідальних областях, як, наприклад, автоматизація введення паспортно-візової інформації, необхідно забезпечити високу надійність розпізнавання (більше 98-99%) навіть при поганій якості друку і оцифровування початкового тексту.
У останні десятиліття, з використанням сучасних досягнень в області комп'ютерних технологій, були розвинені нові методи опрацювання зображень (важливий внесок в розвиток яких внесли С. Антощук, Н. Бондаренко, В. Васильев, Т. Вінцюк, Р. Воробель, В. Гриценко, О. Івахненко, М. Кириченко, В. Кожем'яко, В. Корчинський, Б. Русин, А. Шевченко, М. Шлезінгер та ін.) і розпізнавання символів арабського тексту (в основному зусиллями вчених Hussain F., Jambi K., S.S.Saloum та ін.), завдяки чому стало можливим створення таких систем розпізнавання друкарського тексту, які задовольняли б основним вимогам систем автоматизації документообігу. Проте створення кожного нового інструменту в даній області, як і раніше, залишається творчим завданням і вимагає додаткових досліджень у зв'язку із специфічними вимогами щодо роздільної здатності, швидкодії, надійності розпізнавання і об'єму пам'яті, якими характеризується кожне конкретне вирішення інформаційної технології введення в комп'ютер паперової документації.
Відомі методи не дозволяють виконувати розпізнавання спотворених зображень символів арабського тексту на достатньо практичному рівні. При цьому якість розпізнавання складає не більше 70 % при рівні спотворення вхідного тексту до 10 %. Отже, актуальною є наукова задача розробки методів розпізнавання дефокусованих і змазаних зображень текстів арабської абетки, що може бути розв'язаною при використанні спеціально створеної інформаційної технології. Зв'язок роботи з державними програмами, планами, темами. Робота виконувалася відповідно до напрямків наукової діяльності кафедри Електронних обчислювальних машин Національного університету „Львівська політехніка”, 2003-2007 рр.
Результати дисертаційних досліджень впроваджені в учбовий процес в лекційному курсі і лабораторному практикумі по дисципліні „Обробка сигналів”.
Мета і завдання дослідження. Метою роботи є розробка інформаційної технології, методів опрацювання змазаних і дефокусованих зображень арабського тексту для покращення їх автоматичного розпізнавання.
Для виконання поставленої мети необхідно вирішити наступні завдання:
- провести аналіз існуючих підходів та методів розпізнавання символів арабської абетки з метою виявлення найбільш ефективних підходів до створення інформаційної системи їх опрацювання і розпізнавання;
- розробити методику попереднього опрацювання дефокусованих і змазаних зображень текстів, ґрунтуючись на загальній теорії розв'язування некоректних задач;
- розробити і дослідити метод автоматичного визначення параметру регуляризації за заданим рівнем похибки вхідних даних;
- розробити і реалізувати інформаційну систему опрацювання і розпізнавання арабських символів на основі методів покращення зображень текстів.
Об'єктом дослідження є системи опрацювання зображень і розпізнавання символів арабської абетки.
Предметом дослідження є інформаційна технологія для реалізації системи опрацювання і розпізнавання зображень символів арабського тексту.
Методи дослідження. Дослідження виконано на основі використання методів розв'язування некоректних задач - для відновлення змазаних і дефокусованих зображень, методи інтегральних рівнянь, математичного і комп'ютерного моделювання - для побудови структури систем розпізнавання, а також на основі експериментальних досліджень - для реалізації і верифікації систем розпізнавання.
Наукова новизна отриманих результатів.
- вперше розроблено метод попереднього опрацювання дефокусованих і змазаних зображень текстів арабського письма, ґрунтуючись на загальній теорії розв'язування некоректних задач;
- вперше розроблено метод автоматичного визначення параметру регуляризації за заданим рівнем похибки вхідних даних при опрацюванні спотворених зображень, що на відміну від відомих підходів не вимагає втручання оператора в процес реконструкції (вибір параметру регуляризації методом підбору), а також розв'язування відповідного трансцендентного рівняння (вибір параметру регуляризації за нев'язкою);
- розроблено інформаційну систему опрацювання і розпізнавання арабських символів, що дозволило забезпечити якість розпізнавання на рівні точності задання вхідної інформації.
Практичне значення отриманих результатів.
Розроблена інформаційна технологія і створений на її основі програмний продукт для розпізнавання зображень арабського тексту дає можливість забезпечити якість розпізнавання до 90 % при рівні спотворення вхідного тексту до 10 % , а також не вимагає втручання оператора в процес опрацювання.
Результати дисертаційної роботи використано в учбовому процесі на кафедрі ЕОМ Національного університету Львівська політехніка в лекційному курсі і лабораторному практикумі по дисципліні „Обробка сигналів” та в АТЗТ друкарня «Моряк» м. Одеса для поліпшення якості видань при обробленні зображень складних фігурних текстів.
Апробація результатів дисертаційної роботи.
Основні результати досліджень були представлені і обговорені на наступних науково-технічних конференціях:
1. ХХVI науково-технічній конференції “Моделювання“ ІПМЕ НАН України. 12-13 січня 2007 року, м. Київ.
2. І Міжнародна конференція Modern problems of radioelectronics, telecommunications and instrument making (MPRTI-2005), Vinnitsa 2-5 June 2005.
3. 3-rd International Conference of Young Scientists Perspective technologies and methods in MEMS design MEMSTECH' 2007, Lviv-Polyana, 2007.
4. Науково-практична конференція «Сучасні проблеми телекомунікації-2007», Львів 18-20.10.2007.
5. Науково-технічний семінар «Системы синхронизации, формирования и обработки сигналов для связи и вещания». 1-4 червня 2007, м. Одеса.
Публікації. За матеріалами дисертаційної роботи опубліковано 6 наукових праць у фахових виданнях згідно переліку ВАК України і 5 публікацій у матеріалах науково-технічних конференцій.
Всі результати наукових, теоретичних і експериментальних досліджень, які містяться в дисертації, отримані автором особисто. У працях, опублікованих в співавторстві, автору належать: [1, 2, 7] - розробка і дослідження методів відновлення змазаних і дефокусованих зображень.
Структура і об'єм дисертації. Дисертаційна робота складається зі вступу, чотирьох розділів, висновків, списку використаних джерел і додатків. Робота викладена на 150 сторінках машинописного тексту, містить 124 сторінки основного тексту, список літератури з 110 найменувань, 7 таблиць, 69 рисунків.
Основний зміст роботи
У вступі розкрито суть і стан проблеми, обґрунтована актуальність теми дисертаційної роботи, сформульовано мета і задачі дослідження, наукова новизна, практичне значення, наведені короткі анотації розділів дисертаційної роботи.
У першому розділі проведено аналіз існуючих методів автоматичного розпізнавання текстів арабського тексту.
Проаналізовано способи отримання зображення тексту для систем автоматичного розпізнавання (рис.1). Показано, що при отриманні первинного зображення при низькій якості оригіналу (наприклад, з фотографії, факсу і т.п.) можливі спотворення тексту, що виявляються у вигляді нерізкості або змазування. Такі спотворення не дозволяють застосувати отримане зображення для автоматичного розпізнавання і вимагають його попередньої обробки з метою відновлення (рис.1).
Рис. 1. Різні методи отримання зображень тексту
Коротко розглянуті характеристики арабських текстів, показано складність задач розпізнавання таких текстів через наявність діакритичних знаків і різного написання букв в залежності від їх розташування в слові (на початку, в кінці, посередині) або ізольовано в реченні. Розглянуто відмінності в стилях написання слів і букв, запропонована методика розпізнавання знаків, що зливаються або накладаються (рис.2).
Остаточне опрацювання зображення, виділення ознак, класифікація і розпізнавання проводиться на основі виділення напряму контурів, цифровими еквівалентами яких є послідовності Фрімана.
Рис.2. Загальна структурна схема розпізнавання зображень арабського тексту
У другому розділі розглянуто математичні проблеми попереднього опрацювання спотворених зображень. Описано технічна і математична схема вимірювання.
Основна увага приділена опрацюванню (відновленню, реконструкції) зображень, спотворених в результаті змазування (зміщення, зсуву) або дефокусування.
Задача відновлення дефокусованого та змазаного зображень зводиться до розв'язування відповідно двохвимірного та одновимірного інтегрального рівняння Фредгольма I роду типу згортки, заданих на дійсній осі. При цьому перетворення Фур'є ядра інтегрального рівняння для дефокусованого зображення має вигляд:
, (1)
де - циліндрична функція Бесселя першого роду, 1, 2 - параметри перетворення Фур'є, є прямо пропорційне величині дефокусування . У випадку змазування маємо:
,
де - величина змазування, .
Таким чином, задача реконструкції дефокусованих або змазаних зображень зводиться до обчислення перетворення Фур'є:
, n=1, 2, (2)
де W(x) - зображення при відсутності спотворення, GF - перетворення Фур'є інтенсивності реального зображення, KF - перетворення Фур'є передавальної функції системи. Задача (2) є некоректною на парі метричних просторів L1(Rn) та C(Rn), оскільки інтеграл (2) не існує в класичному сенсі.
В роботі розглянуто загальний підхід до розв'язання питання стійкого обчислення інтегралу (2), що ґрунтується на використанні стабілізуючого множника у вигляді . При цьому параметр регуляризації зв'язано безпосередньо із рівнем точності вхідних даних , що дозволяє записати:
. (3)
При заданому значенні рівень амплітуди підінтегральної функції зменшується в e2 разів. Крім того, при регуляризований розв'язок прямує до майже для всіх . Співвідношення (3) є основним в задачі реконструкції дефокусованих та змазаних зображень.
Рис. 3. Відновлення функції
На рис. 3 показано приклад відновлення функції
за відомою
, =0,05
використовуючи формули середніх прямокутників при обчисленні інтеграла (3). При цьому пунктирною лінією зображено відповідні результати без регуляризації. Проведені числові розрахунки показують, що запропонована методика зменшує похибку розв'язку (збільшує відношення сигнал \ шум) в декілька разів.
Таким чином, задача реконструкції змазаних або дефокусованого зображення зводиться до розв'язку відповідного інтегрального рівняння методом регуляризації, згідно запропонованих формул (3).
У третьому розділі описано дискретні моделі зображень та їх лінійних спотворень. Для зображень, представлених в цифровій формі, двомірні функції з неперервними аргументами замінюються двомірними масивами відліків, взятих на прямокутних сітках з однаковими відстанями між вузлами.
Розміри зображення і визначаються відношенням довжин відповідно вертикальної і горизонтальної сторін аналогового зображення до величини інтервалу дискретизації .
Аргументи з індексом 1 позначають номер рядка, а с індексом 2 - номер стовпця.
У випадку змазування спостережуване зображення є результатом накладання із зсувом безлічі початкових зображень.
Передавальна функція такої системи в дискретному випадку визначається виразом:
(4)
де .
Доповнюючи (4) нулями до розмірів початкового зображення і застосовуючи двовимірне перетворення Фур'є, отримаємо частотну характеристику спотворюючої системи у вигляді:
(5)
При дефокусуванні дві близько розташовані точки на початковому зображенні зливаються в одну на спостережуваному. Величина круга розмиття залежить від фокусної відстані об'єктиву, а також від відстаней від об'єктиву до об'єкту і до площини сформованого зображення. При цьому розподіл інтенсивності на зображенні точкового джерела, що формується тонкою лінзою з круговою апертурою, постійний в межах круга розмиття радіусом і дорівнює нулю за його межами. Це відповідає циліндричній передавальній функції:
де розміри кадру . Тоді передавальна функція оптичної системи визначається співвідношенням (1).
Можна виділити три основні чинники, які ускладнюють вирішення проблеми відновлення зображень.
1. Спотворення типу дефокусування або змазування проявляються в ослабленні верхніх просторових частот зображення, оскільки формуючими системами є фільтри нижніх частот. При цьому відношення сигнал/шум на верхніх частотах, що визначають чіткість зображення, буде значно гіршою, ніж для зображення в цілому.
2. При спотвореннях, викликаних рухом або дефокусуванням, передавальні функції мають нулі, наявність яких обумовлена осцилюючим характером передавальних функцій (1) та (5). Наявність нулів призводить до втрати даних про початкове зображення на відповідних частотах. З цієї причини не вдається абсолютно точно відновити початкове зображення за спостережуваним.
При вирішенні задач відновлення зображень, що описуються рівнянням згортки, алгоритми відновлення можна розділити на три групи: алгоритми розв'язку системи алгебраїчних рівнянь, алгоритми фільтрації зображень в частотній області та ітераційні алгоритми.
Проведено порівняння різних методів відновлення зображень, причому:
- для алгебраїчних методів можна знайти лише наближений розв'язок, який визначається з умови мінімуму норми похибки. Основним недоліком алгебраїчних алгоритмів є необхідність виконання трудомістких операцій обернення, множення і транспонування матриць великих розмірів;
- метод інверсної фільтрації може використовуватися для відновлення обмеженого класу зображень, у яких рівень фону на краях постійний. Крім того, метод інверсної фільтрації володіє низькою завадостійкістю;
- фільтр Вінера має високу завадостійкість і у ньому відсутні сингулярності, обумовлені нулями передавальної функції формуючої системи. Недоліком є наявність краєвих ефектів, які виявляються у вигляді осцилюючої завади, що маскує відновлене зображення;
- при застосуванні запропонованого методу (3) автоматично визначаються границі інтегрування, а параметр регуляризації безпосередньо зв'язаний із рівнем точності вхідних даних. Метод має високу завадостійкість, характеризується відсутністю краєвих ефектів (див. рис.3), а недоліком є наявність нулів у передавальній функції. Приклад відновлення змазаного зображення за допомогою співвідношення (3) показано на рис.4.
Размещено на http://www.allbest.ru/
Рис.4. Приклади дефокусованого (=0,005) і відновленого зображень
У четвертому розділі розроблена і реалізована інформаційна система для розпізнавання арабських символів на основі розроблених методів опрацювання спотворених зображень.
Арабський текст відрізняється від символів латинського і китайського алфавітів способом з'єднання букв при побудові слів. Ці букви можуть бути приєднані як кінцеві букви справа наліво. Крім того, арабські букви можуть накладатися одна на одну, як це показано на рис.5. Таке накладання часто трапляється як в рукописному, так і в друкованому тексті.
Рис.5. Накладання арабських букв
У арабському письмі існує 28 символів, більшість з яких змінюють свою форму відповідно до їх розташування в слові. Вони можуть бути розміщені на початку, в середині або в кінці слова, можуть з'являтися окремо. Оскільки варіантність форм цих букв залежить від ситуації, загальна кількість форм букв складає 116, причому деякі форми певних букв можуть бути повністю ідентичними, якщо їх позбавити крапок.
Послідовність операцій, які використовуються при розпізнаванні арабського тексту, приведена на рис.6.
Рис.6. Загальна схема розпізнавання арабських символів
Стадія трансформації призначена для первинного отримання і оброблення (а також поліпшення змазаних або дефокусованих) зображень текстів, як описано в розділах 2 і 3. Після цього проводиться сегментація і виділення вторинних ознак для побудови букв. Вона здійснюється в три етапи. Перший етап - розділення тексту на рядки, на слова та їх контури. На другому етапі визначаються вторинні ознаки для скелетів букв. На третьому етапі здійснюється безпосереднє розділення зображення на окремі букви.
Для цього застосовано послідовності Фрімана для представлення контурів слів в текстовому рядку. При цьому визначається базова лінія для кожного рядка тексту.
Останнім етапом є синтаксичне розпізнавання отриманих масивів ознак. арабський текст розпізнавання дефокусований
Основні методи, які використано для виявлення ознак, що відділяють склади один від одного за допомогою технологій відстежування і представлення - методи послідовностей Фрімана.
При цьому найбільш важливими ознаками є:
а) Базова лінія - серединна лінія, яку проводить людина, яка пише в горизонтальному напрямі.
б) Субслово (підслово) - частини слова, які відокремлені один від одного вузькими проміжками, і які в арабському тексті можуть перекриватися, тобто накладатися один на другу (рис.7).
в) Слово у арабському тексті складається з одного або декількох субслів, які разом утворюють суть певного мовного змісту. Слова розділені відносно широкими проміжками.
г) Контур-лінія, яка є границею складів в словах, як це показано на рис.8.
Рис.7. Слово, що складається з 5-ти субслів
Рис.8. Приклад контуру
Базова лінія (BL) - це послідовність:
i=1…Rending ,
де i=1…Rending, DB - слово з точок; I - слово послідовності ознак у ряді точок; j - слово послідовності ознак в стовпці точок; Ri - загальна кількість слів (DB) для лінії і (рис.9).
Рис.9. Визначення кількості точок ліній рядка тексту
Розгляд наведених результатів дозволяє визначити дві лінії, які позначаються як верхня та нижня базові лінії (TBL і ВBL). Після визначення цих ліній можна визначити базову лінію BL, яка знаходиться між TBL і ВBL (рис.10).
Рис. 10. Визначення TBL, ВBL і BL
Процес кодування геометричних фігур, які застосовуються при представленні двомірних зображень з використанням послідовностей Фрімана, виконується шляхом застосування одного з восьми напрямів, забезпечуючи неперервність графічного скелета. Ці напрями (рис.11) закодовані числами від 0 до 7.
Для ідентифікації будь-якої геометричної фігури центр вікна "накладається" на досліджуваний масив точок, після чого центр вікна переміщується залежно від форми фігури, в одному з восьми напрямів.
Розділення слова на окремі букви і виділення їх вторинних ознак завершується представленням кожного окремого символу тексту у вигляді числової послідовності, яка утворює замкнутий геометричний контур.
Рис.11. Вікно Фрімана, використане для кодування напряму точок
Загальною рисою всіх символів є шаблон плавності справа наліво, який починається з різних висот базової лінії, і завершується на одній з трьох ділянок - верхній, нижній або на базовій лінії. Ці букви відрізняються своїми характеристиками при віднесенні їх до певної категорії за допомогою вимірювання висоти лінії, або наявності однієї або декількох порожніх областей, які залежать від їх розміщення на базовій лінії. Букви мають різні площі і їх частини розташовані по-різному. Найбільш важливими характеристиками, які використовує попередня обробка для сегментації - те, що букви «з'єднуються» одна з іншою в певних ділянках базової лінії. У цих ділянках формується кут, який є зоною зміни напряму неперервного горизонтального руху вліво на неперервний рух вгору. Потім ця характеристика розглядається як первинна для початку процесу сегментації.
Щоб досягти поставленої мети сегментації, розглядається низка результатів вимірювань:
1 - відстань точок від базової лінії;
2 - зміни в русі скелету справа наліво і вгору;
3 - ширина букви по горизонтальній осі (мінімум 11 точок);
4 - висота букви по вертикальній осі;
5 - застосування для обробки порожніх областей;
6 - товщина базової лінії.
Стадія класифікації є завершальним етапом в системі розпізнавання.
Застосування процесу класифікації є порівнянням характеристик з тими, що були заздалегідь збережені відповідно даним вивчення скелету (на третьому рівні другого етапу), і у разі відповідності, ця відповідність фіксується за допомогою коду букви. На цьому етапі виконується остаточне розпізнавання символів тексту з вказівкою їх позицій, відповідно спочатку, усередині, або в кінці слова. Результати виконання етапу класифікації наведені в табл. 1.На базі створених програмних продуктів проведено тестування інформаційної системи і розробленого методу опрацювання та розпізнавання зображень арабського тексту, який показав його високу ефективність. Без попереднього опрацювання правильно було розпізнано близько 60 % слів, після опрацювання - 85-90 %. Тестові приклади містили 270-310 слів (рис.4).
Таблиця 1. Результати розпізнавання тексту
Код |
Символи |
Код |
Символи |
|||||||
Окремо |
В кінці |
В середині |
Спочатку |
Окремо |
В кінці |
В середині |
Спочатку |
|||
60 |
59 |
58 |
57 |
Ц |
4 |
3 |
2 |
1 |
З |
|
64 |
63 |
62 |
61 |
Ш |
8 |
7 |
6 |
5 |
И |
|
68 |
67 |
66 |
65 |
Щ |
12 |
11 |
10 |
9 |
К |
|
72 |
71 |
70 |
69 |
Ъ |
16 |
15 |
14 |
13 |
Л |
|
76 |
75 |
74 |
73 |
Ы |
20 |
19 |
18 |
17 |
М |
|
80 |
79 |
78 |
77 |
Э |
24 |
23 |
22 |
21 |
Н |
|
84 |
83 |
82 |
81 |
Ю |
28 |
27 |
26 |
25 |
О |
|
88 |
87 |
86 |
85 |
Я |
32 |
31 |
30 |
29 |
П |
|
92 |
91 |
90 |
89 |
б |
36 |
35 |
34 |
33 |
Р |
|
96 |
95 |
94 |
93 |
г |
40 |
39 |
38 |
37 |
С |
|
100 |
99 |
98 |
97 |
д |
44 |
43 |
42 |
41 |
Т |
|
104 |
103 |
102 |
101 |
еЬЬ |
48 |
47 |
46 |
45 |
У |
|
108 |
107 |
106 |
105 |
ж |
52 |
51 |
50 |
49 |
Ф |
|
112 |
111 |
110 |
109 |
н |
56 |
55 |
54 |
53 |
Х |
Основні результати роботи і висновки
У дисертаційній роботі вирішена актуальна наукова задача розробки інформаційної технології для опрацювання змазаних і дефокусованих зображень арабського тексту з метою покращення їх розпізнавання. При цьому отримані такі основні результати:
1. На основі аналізу існуючих методів вперше розроблено метод попереднього опрацювання дефокусованих і змазаних зображень текстів арабського письма, ґрунтуючись на загальній теорії розв'язування некоректних задач.
2. Вперше розроблено і досліджено метод автоматичного визначення параметру регуляризації за заданим рівнем похибки вхідних даних при опрацюванні спотворених зображень, що на відміну від відомих підходів не вимагає втручання оператора в процес реконструкції (вибір параметру регуляризації методом підбору), а також розв'язування відповідного трансцендентного рівняння (вибір параметру регуляризації за нев'язкою).
3. Проведено порівняння різних методів відновлення зображень, причому показано, що:
- для алгебраїчних методів можна знайти лише наближений розв'язок, який визначається з умови мінімуму норми похибки. Основним недоліком алгебраїчних алгоритмів є необхідність виконання трудомістких операцій обернення, множення і транспонування матриць великих розмірів;
- метод інверсної фільтрації може використовуватися для відновлення обмеженого класу зображень, у яких рівень фону на краях постійний. Крім того, метод інверсної фільтрації володіє низькою завадостійкістю;
- фільтр Вінера має високу завадостійкість і у ньому відсутні сингулярності, обумовлені нулями передавальної функції формуючої системи. Недоліком є наявність краєвих ефектів, які виявляються у вигляді осцилюючої завади, що маскує відновлене зображення;
- при застосуванні запропонованого методу автоматично визначаються границі інтегрування, а параметр регуляризації безпосередньо зв'язаний із рівнем точності вхідних даних. Метод має високу завадостійкість, характеризується відсутністю краєвих ефектів, а недоліком є наявність нулів у передавальній функції.
4. Розроблено і вперше досліджено методи формування послідовностей Фрімана для сегментації тексту, розділення складів один від одного і слів на букви для зображень текстів арабського письма, що дозволило класифікувати субслова і букви залежно від місця їх написання.
5. Вперше виконана програмна реалізація інформаційної технології для розпізнавання зображень арабського тексту на основі розробленого методу попереднього опрацювання спотворених зображень, який показав його високу ефективність та дає можливість удосконалити систему розпізнавання за рахунок збільшення розбірливості при розпізнаванні дефокусованих і змазаних зображень на рівні 90 %.
Список опублікованих праць за темою дисертації
1. Імад І.А. Сбіех. Реконструкція тривимірних об'єктів на растрових зображеннях / Ємець В.Ф., Мороз І.В., Імад І.А. Сбіех // Зб. наук. пр. ІПМЕ ім. Г.Є. Пухова. Вип. 29. - К.: 2005. - C.132-139.
2. Імад І.А. Сбіех. Система реконструкції тривимірних об'єктів за невпорядкованими даними аерозображень / Ємець В.Ф., Карпін О.О., Імад І.А. Сбіех // Моделювання та інформаційні технології. Зб. наук. пр. ІПМЕ ім. Г.Є. Пухова. Вип. 35. - К.: 2005. - C.120-129.
3. Імад І. А. Сбіех. Побудова системи розпізнавання арабських літер з використанням послідовностей Фрімана / Імад І. А. Сбіех // Зб. наук. пр. ІПМЕ ім. Г.Є. Пухова. Вип. 41. - К.: 2007. - C.14-22.
4. Імад І. А. Сбіех. Підходи до побудови сучасних систем оптичного розпізнавання символів та покращення їх характеристик з використанням некоректних задач / Імад І. А. Сбіех // Зб. наук. пр. ІПМЕ ім. Г.Є. Пухова. Вип. 40. К.: 2007. - C.164-171.
5. Имад И. А. Сбиех. Контекстно-зависимая многомасштабная классификация изображения документа с использованием волновых коэффициентов / Имад И. А. Сбиех // Комп'ютерні технології друкарства. Зб. наук. пр. - Вип. 18. - Львів: УАД. - 2007. - 252 с. - С.120-124.
6. Имад И.А. Сбиех. Исследование методов распознавания текстов арабского письма / Имад И. А. Сбиех // Зб. наук. пр. ІПМЕ НАН України. - Вип.43. - К.: 2007. - С.163-173.
7. Ємець В., Карпін О., Імад І.А. Сбіех. Система реконструкції тривимірних об'єктів за невпорядкованими даними аерозображень / Ємець В., Карпін О., Імад І.А. Сбіех // Матеріали І Міжнародної конференції: Modern problems of radioelectronics, telecommunications and instrument making (MPRTI-2005). Vinnitsa 2-5 June 2005. - С. 105.
8. Imad I.A. Sbieh. Modern OCR construction approaches and ill-conditioned problem theory / Imad I.A. Sbieh // 3-rd Іnternational Conference of Young Scientists Рerspective technologies and methods in MEMS design MEMSTECH' 2007, Lviv-Polyana, 2007. - С. 98.
9. Імад І.А. Сбіех. Побудова систем розпізнавання символів з використанням методів розв'язку некоректних задач / Імад І.А. Сбіех // Матеріали конференції: ХХVI науково-технічна конференція “Моделювання“, ІПМЕ НАН України. 12-13 січня 2007 р., м. Київ. - С. 81.
10. Імад І.А. Сбіех. Підходи до відновлення спотворених зображень / Імад І.А. Сбіех // Науково-практична конференція «Сучасні проблеми телекомунікації-2007», Львів 18-20.10.2007. - С.26-28.
11. Имад И.А. Сбиех. Улучшение характеристик современных систем распознавания символов с использованием методов решения некорректных задач / Имад И.А. Сбиех // Материалы семинара: Научно-технический семинар «Системы синхронизации, формирования и обработки сигналов для связи и вещания». 1-4 июня 2007, г.Одесса. - М., Одесса: 2007. - 192 с. - C.150-153.
Анотації
Імад І.А. Сбіех. Методи опрацювання зображень текстів арабської абетки. Рукопис. Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 - інформаційні технології.
Дисертація присвячена розробці інформаційної технології для методів опрацювання спотворених зображень арабського тексту для поліпшення їх автоматичного розпізнавання. Показано, що при отриманні первинного зображення або низькій якості оригіналу (наприклад, з фотографії, факсу і т.п.) можливі спотворення тексту, що виявляються у вигляді нерізкості або змазування.
Такі спотворення не дозволяють застосувати отримане зображення для автоматичного розпізнавання і вимагають його попередньої обробки з метою відновлення. Розглянуті характеристики арабських текстів, показані складність задач розпізнавання таких текстів через наявність діакритичних знаків і різне написання букв в залежності від їх розташування в слові (на початку, в кінці, посередині) або ізольовано в реченні, відмінності в стилях написання, запропонована методика розпізнавання знаків, що зливаються або накладаються.
Для вирішення задач відновлення розглянуті математичні проблеми попередньої обробки спотворених в результаті змазування або дефокусування зображень.
Показано, що задача реконструкції спотвореного зображення зводиться до розв'язку відповідного інтегрального рівняння Фредгольма першого роду, що розв'язується методом регуляризації згідно запропонованих формул. Проведено порівняння різних методів відновлення зображень, розглянуто методи компенсації краєвих ефектів при відновленні зображень.
Розроблена і реалізована інформаційна система для розпізнавання арабських символів на основі послідовностей Фрімана та розроблених методів покращення зображень.
Ключові слова: зображення арабського тексту, змазування і дефокусування зображень, методи відновлення зображень, інтегральне рівняння Фредгольма, метод регуляризації, інформаційна система, послідовності Фрімана.
Имад И.А. Сбиех. Методы обработки изображений текстов арабского алфавита. Рукопись. Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.06 - информационные технологии.
Диссертация посвящена разработке информационной технологии для методов обработки искаженных изображений арабского текста для улучшения их автоматического распознавания, основываясь на общей теории решения некорректных задач. Показано, что при получении первичного изображения или низком качестве оригинала (например, с фотографии, факса и т.п.) возможны искажения текста, которые проявляются в виде нерезкости или смазывания. Такие искажения не позволяют использовать полученное изображение для автоматического распознавания и требуют его предварительной обработки с целью восстановления. Рассмотрены характеристики арабских текстов, показаны сложность задач распознавания таких текстов из-за наличия диакритических знаков и различного написания букв в зависимости от их расположения в слове (в начале, в конце, посредине) или изолировано в предложении, отличий в стилях написания, предложена методика распознавания знаков, которые сливаются или накладываются. Для решения задач восстановления рассмотрены математические проблемы предварительной обработки искаженных в результате смазывания или расфокусирования изображений. Показано, что задача реконструкции искаженного изображения сводится к решению соответствующего интегрального уравнения Фредгольма первого рода, которое решается методом регуляризации согласно предложенных формул. Впервые разработан и исследован метод автоматического определения параметра регуляризации по заданному уровню погрешности входных данных при обработке искаженных изображений, что в отличие от известных подходов не требует вмешательства оператора в процесс реконструкции (выбор параметра регуляризации методом подбора), а также решения соответствующего трансцендентного уравнения (выбор параметра регуляризации по невязке). Проведено сравнение разных методов восстановления изображений, рассмотрены методы компенсации краевых эффектов при восстановлении изображений. Разработана и реализована информационная система для распознавания арабских символов на базе последовательностей Фримана и разработанных методов улучшения изображений, для сегментации текста, разделения слогов один от другого и слов на буквы для изображений текстов арабского письма, что позволило классифицировать субслова и буквы в зависимости от места их написания, выполнена программная реализация информационной технологии для распознавания изображений арабского текста на основе разработанного метода предварительной обработки искаженных изображений, который показал его высокую эффективность.
Ключевые слова: изображения арабского текста, смазывание и расфокусирование изображений, методы восстановления изображений, интегральное уравнение Фредгольма, метод регуляризации, информационная система, последовательности Фримана.
Imad I. A. Sbieh. Methods of processing texts in Arabic alphabet. Manuscript. Dissertation for the academic degree of the Candidate of Sciences (PhD) in the speciality 05.13.06 - Information Technologies.
This dissertation is dedicated to the development of information technology for processing distorted images of the text in Arabic language to improve their automatic recognition. It has been demonstrated, that at obtaining the initial image or in case of poor quality of the original (for example, from a photograph, fax message page, etc.) there can be distortions of the text in the form of poor sharpness or smears. Such distortions do not permit to use the obtained image for automatic recognition and require its preliminary processing to restore it. The work presents characteristics of the texts in Arabic language, shows complexity of the problems of recognition of such texts caused by the presence of diacritic marks and different manners of writing the letters depending on their place in the word (in the beginning, in the middle or in the end) or in the sentence separately, by difference in the style of writing, and proposes a method of recognition of the signs that join together or become imposed on each other. Mathematical problems of preliminary processing of distorted by smearing or unsharpness images have been considered to resolve the problem of restoration. It has been shown that the problem of reconstruction of a distorted image boils down to the solving of appropriate first-order Fredholm equation solved by the method of regularization according to the suggested formulas. Comparison has been made of the various methods of restoration of the images, methods of compensation of edge effects when restoring images have been considered. Information system for recognition of the Arabic symbols based on Freeman sequence and on the developed methods of image improvement.
Key-words: image of Arabic text, smearing and unsharpness of images, methods of restoration of images, Fredholm equation, method of regularization, information system, Freeman sequence.
Размещено на Allbest.ru
...Подобные документы
Сегментація і нормалізація зображень. Основні функціональні можливості та режими роботи комплексу розпізнавання письмового тексту. Розробка комплексу оптичного розпізнавання символів. Шрифтові та безшрифтові алгоритми розпізнавання друкованого тексту.
курсовая работа [1,7 M], добавлен 19.05.2014Комп’ютерне моделювання системи сегментації та розпізнавання облич на зображеннях. Підвищення швидкодії моделювання за кольором шкіри та покращення якості розпізнавання при застосуванні робастних boosting-методів. Розробка алгоритмів функціонування.
дипломная работа [1,6 M], добавлен 02.07.2014Огляд методів розпізнавання образів. Основні ідеї інформаційно-екстремального методу розпізнавання рукописних символів. Критерій оптимізації параметрів функціонування даної системи. Інформаційне та програмне забезпечення обробки рукописних символів.
дипломная работа [291,0 K], добавлен 14.10.2010Розробка, дослідження та реалізація методів вирішення завдань аналізу, розпізнавання і оцінювання зображень як один із провідних напрямків інформатики. Класифікація та аналіз існуючих методів розпізнавання образів, переваги та недоліки їх застосування.
статья [525,8 K], добавлен 19.09.2017Розробка методів вирішення завдань аналізу, розпізнавання, оцінювання зображень як одних з провідних напрямків інформатики. Описання методу пошуку співпадіння об’єкту-цілі з міткою-прицілом на заданому відеоряді. Виявлення об’єкта на цифровому зображенні.
статья [138,7 K], добавлен 21.09.2017Огляд інтелектуальних принципів організації процесу розпізнавання символів. Розробка системи безклавіатурного введення документів у комп’ютер. Опис і обґрунтування проектних рішень; розрахунки і експериментальні дані; впровадження системи в експлуатацію.
дипломная работа [182,5 K], добавлен 07.05.2012Опис предметної області по темі "Перевантаження методів". Методика розробки тестових завдань. Проектування та розробка програми. Опис елементів управління, які використовуються в проекті. Опис текстів процедур та опрацювання подій. Отримані результати.
курсовая работа [620,9 K], добавлен 06.08.2013Історія досліджень, пов’язаних з розпізнаванням образів, його практичне використання. Методи розпізнавання образів: метод перебору, глибокий аналіз характеристик образу, використання штучних нейронних мереж. Характерні риси й типи завдань розпізнавання.
реферат [61,7 K], добавлен 23.12.2013Актуальність сучасної системи оптичного розпізнавання символів. Призначення даних систем для автоматичного введення друкованих документів в комп'ютер. Послідовність стадій процесу введення документу в комп'ютер. Нові можливості програми FineReader 5.0.
курсовая работа [4,5 M], добавлен 29.09.2010Специфіка застосування нейронних мереж. Огляд програмних засобів, що використовують нейронні мережі. Побудова загальної моделі згорткової нейронної мережі. Реалізація нейромережного модулю розпізнавання символів на прикладі номерних знаків автомобілів.
дипломная работа [3,4 M], добавлен 15.03.2022Алгоритм оптичного розпізнавання образів. Універсальність таких алгоритмів. Технологічність, зручність у процесі використання програми. Два класи алгоритмів розпізнавання друкованих символів: шрифтовий та безшрифтовий. технологія підготовки бази даних.
реферат [24,5 K], добавлен 19.11.2008Розробка програми у середовищі візуального програмування Borland Delphi, що демонструє роботу із двовимірним масивом різних символів. Побудова інформаційно-математичної моделі та опрацювання кожного з функціональних блоків на етапі алгоритмізації.
курсовая работа [1,7 M], добавлен 07.05.2009Призначення та область застосування програм, які орієнтовані на перетворення зображень з плоского в об’ємне. Основні стадії формування тривимірного зображення. Класифікація моделей і методів візуалізації. Особливості створення карти глибин по пікселям.
курсовая работа [325,8 K], добавлен 04.06.2010Системи розпізнавання обличчя. Призначення та область застосування програми "Пошук обличчя люди у відеопотоках стандарту MPEG-4". Штучна нейронна мережа, локалізація та розпізнавання обличчя. Методи, засновані на геометричних характеристиках обличчя.
курсовая работа [1,8 M], добавлен 27.03.2010Ознайомлення із загальною структурою системи автоматичного розпізнавання мовлення. Визначення особливостей нейронних мереж. Дослідження та характеристика процесу побудови системи розпізнавання мовлення. Вивчення специфіки прихованої моделі Маркова.
дипломная работа [1,1 M], добавлен 25.07.2022Графічна підсистема Delphi 5, її можливості, інструменти та принципи побудови прикладних програм з використанням графіки; дочірні класи. Методи опрацювання графічних зображень різних форматів і типів: растрових файлів, метафайлів Windows, піктограм.
лабораторная работа [47,9 K], добавлен 19.03.2011Області застосування методів цифрової обробки зображень. Динамічний діапазон фотоматеріалу. Графік характеристичної кривої фотоплівки. Загальне поняття про High Dynamic Range Imaging. Тональна компресія та відображення. Головні стегано-графічні методи.
контрольная работа [1,6 M], добавлен 10.04.2014Програмний продукт "Графічний кодер чорно-білих зображень". Аналіз технологій одержання компактних подань відеоінформації способом організації кодування й пошук шляхів підвищення їх ефективності. Кодування зображень на основі зміни градації яскравості.
дипломная работа [1,8 M], добавлен 29.06.2009Основні теоретичні відомості алгоритмів стиснення зображень: класи зображень та їх представлення в пам'яті, алгоритми та принципи групового кодування. Огляд та аналіз сучасних програмних засобів конвертування. Тестування, опис роботи програмного засобу.
курсовая работа [2,9 M], добавлен 15.03.2014Растрові формати зображень tiff, bmp, pcx, gif, jpeg, png, опис растрової графічної інформації. Зручність та недоліки векторних форматів. Зберігання і обробка зображень, що складаються з ліній, або можуть бути розкладені на прості геометричні об'єкти.
контрольная работа [2,5 M], добавлен 19.09.2009