Оцінка якості зображень згортковою нейронною мережею при використанні бази TID2013
Проблема автоматичної оцінки якості зображень згортковою нейронною мережею (НМ). Варіанти розв’язання задачі побудови НМ. Структура НМ та параметри для навчання кожного шару, графіки зміни точності для навчальних та перевірних зображень під час навчання.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | украинский |
Дата добавления | 28.03.2024 |
Размер файла | 1,2 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Оцінка якості зображень згортковою нейронною мережею при використанні бази TID2013
Ю. Романишин, О. Теглівець, Національний університет “Львівська політехніка”, С. Єлманов, Спеціальне конструкторське бюро телевізійних систем, Т. Андрухів, Львівська філія АТ “Укртелеком”, Державний університет інтелектуальних технологій і зв'язку
Розглянуто проблему автоматичної оцінки якості зображень згортковою нейронною мережею із використанням для навчання нейронної мережі поширеної бази зображень TID2013. Базу TID2013 вибрано з тих міркувань, що вона містить 25 базових реальних зображень, отриманих на основі цих зображень спотворених зображень за допомогою 24 різних методів спотворень із п'ятьма рівнями спотворень, що створює достатньо велику базу 3000 зображень для навчання нейронної мережі. Для кожного зображення наведено усереднену експертну оцінку його якості. Всі вхідні зображення для нейронної мережі розділено на дві групи - навчальну та перевірну (валідаційну) множину зображень. Розглянуто два варіанти розв'язання задачі побудови і навчання нейронної мережі та відповідної структури даних. Перший варіант зводиться до задачі числової регресії з використанням числових значень експертних оцінок. Другий варіант є задачею класифікації навчальних та перевірних зображень із поділом за якістю на п'ять класів відповідно до рівнів спотворень. Для побудови та дослідження нейронної мережі використано програмні засоби Keras та TensorFlow. Наведено структури нейронних мереж та відповідні параметри для навчання кожного шару, графіки зміни точності для навчальних та перевірних зображень під час навчання.
Ключові слова: оцінка якості зображень; згорткова нейронна мережа; TID2013; Keras; TensorFlow.
Image quality assessment by convolutional neural network using the TID2013 database
Yuriy Romanyshyn, Oles Teglivets, Lviv Polytechnic National University; Sergei Yelmanov, Special Design Office of Television Systems; Taras Andrukhiv, Lviv branch of JSC “Ukrtelecom”, State University of Intellectual Technologies and Communications,
The article is devoted to the problem of automatic image quality assessment by a convolutional neural network when using the common TID2013 image database for training the neural network. The TID2013 database was chosen for the reason that it contains 25 base real-world images, which were distorted from these images using 24 different distortion methods and with 5 distortion levels, creating a sufficiently large database of 3000 images for training the neural network. For each image, an average expert assessment of its quality is given. All input images for the neural network are divided into two groups - the training set and the validation set. We consider two options for solving the problem of building and training a neural network and the corresponding data structure. The first option is reduced to the task of numerical regression using the numerical values of expert assessments. The second option is the task of classifying the training and validation images into 5 classes according to their quality corresponding to distortion levels. Keras and TensorFlow software tools are used to build and study the neural network. The neural network structures and relevant parameters for training each layer are presented, as well as graphs of accuracy changes for training and validation images during training.
Key words: image quality assessment; convolutional neural network; TID2013; Keras; TensorFlow
Вступ
Кількісна оцінка якості зображень - одне із важливих завдань їх попередньої обробки. Коректна оцінка якості зображень визначає необхідність або потенційну можливість покращення їх якості та встановлення можливих способів їх поліпшення, щоб підвищити ефективність подальших завдань обробки зображень - класифікації, розпізнавання, сегментації, кластеризації тощо. Складність проблеми оцінки якості зображень, порівняно з іншими завданнями їх обробки, відзначено в [1]. Причиною цього є те, що використовувані кількісні метрики оцінки якості зображень часто дають істотно різні результати, які до того ж не відповідають візуальній експертній оцінці якості зображень.
Методи оцінювання якості зображень можна розділити на дві основні групи: 1) з використанням еталонного зображення згідно з певними обчислювальними процедурами та 2) без використання такого еталона. Серед методів першої групи можна виділити [2, 3]: узагальнену норму різниці між числовими значеннями відповідних пікселів оцінюваного зображення та еталонного; середнє квадратичне або середнє абсолютне значення різниці між зображеннями; максимальне відхилення від еталонного зображення; взаємну кореляцію між елементами зображень; індекс структурної подібності тощо. Крім того, якість зображення іноді оцінюють із позицій теорії інформації [4].
За відсутності еталонного зображення якість зображення може оцінюватися візуальною оцінкою, яка є адекватною зоровому сприйняттю зображення. Кількісна оцінка якості в цьому випадку формується на основі сукупності експертних оцінок зображення. Такі експертні оцінки, які ґрунтуються на візуальному сприйнятті якості зображень, можна використовувати для розроблення методів автоматичної оцінки якості зображень [5].
Значний прогрес у розвитку нейронних мереж, насамперед згорткових нейронних мереж, зумовив інтерес до їх використання для різних завдань опрацювання зображень, зокрема для оцінювання їх якості. На відміну від задач класифікації та розпізнавання зображень, в яких отримані достатньо високі показники точності розпізнавання, точність нейромережевої оцінки якості зображення зазвичай істотно нижча. Це зумовлює актуальність розвитку та вдосконалення згорт- кових штучних нейронних мереж для оцінювання якості зображень, в яких для навчання використано експертні оцінки якості.
згортковий нейронний мережа навчання
1. Аналіз публікацій за темою нейромережевої оцінки якості зображень
З розвитком теорії нейронних мереж, програмних та апаратних засобів їх реалізації розширюється коло завдань та проблем, для яких застосовують нейронні мережі та методи їх машинного навчання. Останнім часом спостерігається значний прогрес у машинному навчанні завдяки упровадженню глибокого навчання за допомогою згорткових нейронних мереж (CNN - Convolutional Neural Networks). Серед таких задач можна виділити задачі опрацювання зображень, зокрема автоматичної нейромережевої оцінки їх якості. В [6] наведено огляд та порівняння засобів оцінки якості зображень - використовувані бази зображень, метрики та методи.
Проблеми застосування штучних нейронних мереж для оцінки якості зображень розвиваються у кількох напрямах.
Оцінка контрасту як одного з основних показників якості. Наприклад, у [7] висвітлено дослідження оцінки якості зображень у разі погіршення їх контрасту (CDI - Contrast Distorted Images). В роботі застосовано згорткові нейронні мережі для автоматичної оцінки якості зображень за відсутності базового еталонного зображення для порівняння (NR-IQA - No-Reference Image Quality Assessment). Використані бази зображень TID2013, CID2013, CSIQ.
Метрики оцінки якості зображень та їх зв'язок з візуальним сприйняттям. У [3] наведено систематичний та актуальний огляд показників сприйняття зорової якості (PVQMs - Perceptual Visual Quality Metrics) для оцінювання якості зображення відповідно до людського сприйняття.
Побудова нейронних мереж на базі згорткових структур як основного підходу. В [8] побудована глибока нейронна мережа для оцінювання якості зображення, яка складається з десяти згорткових шарів, п'яти об'єднувальних (pooling) шарів для виділення ознак та двох повнозв'язних шарів для розв'язання задачі регресії. Використано бази зображень LIVE, CSIQ та TID2013.
Оцінка якості спеціалізованих зображень, зокрема медичних. У [9] 3D-сканування МРТ серця використано для створення алгоритму оцінки якості зображення. Глибока згорткова нейронна мережа для оцінювання якості зображення була розроблена, навчена, оптимізована та перевірена на основі клінічної бази даних із 324 (набір для навчання) сканів.
Побудова баз зображень для оцінювання якості зображень. В [10] описано побудовану найбільшу (як задекларовано) базу даних для оцінювання якості зображень Waterloo Exploration-II, яка містить 3570 еталонних зображень і близько 3,45 млн одноразово та багаторазово спотворених зображень. Оскільки суб'єктивне тестування для такого великого набору даних майже неможливе, розроблено новий механізм, який синтетично призначає мітки якості сприйняття для спотворених зображень.
Використання специфічних структур нейронних мереж. У [11] описано застосування трансформерів (кодерів та декодерів) для оцінювання якості зображень на основі еталонних зображень із використанням згорткових нейронних мереж для виділення особливостей зображень. У [12] розглянуто особливості застосування оцінки якості зображення у межах задачі машинного навчання з підкріпленням для ультразвукових та рентгенівських медичних зображень.
Використання нейронних мереж для оцінювання якості зображень, які створено із застосуванням певних обмежених типів спотворень та їх рівнів. В [13] розглянуто побудову чотирьох типів нейронних мереж для оцінювання якості зображень за п'яти типів спотворень: розмиття, шум, контраст, JPEG та JPEG2000 стиснення. Побудовані мережі найбільше відповідають цим типам спотворень.
Використання навчених згорткових структур для побудови нейронної мережі оцінки якості зображень. В [14] побудована згорткова нейронна мережа для оцінювання якості зображень з використанням попередньо навченої згорткової основи мережі, навченої на основі зображень ImageNet, та з використанням бази LIVE, яка містить 29 базових RGB зображень, спотворених п'ятьма типами спотворень із кількома їх рівнями. В [15] розглянуто різні типи згорткових ней- ронних мереж, навчених на великих базах зображень, для подальшого використання як попередньо навчених згорткових структур.
Розділення зображень на окремі області, оцінювання їх якості та усереднене об'єднання цих оцінок у загальну оцінку якості. В [16] досліджено використання глибокого навчання для оцінювання якості зображень, згенерованих на основі базових зображень. Нейронна мережа, названа DeepBIQ, оцінює якість зображення усередненням оцінок, отриманих на множині підоб- ластей оригінального зображення. Використано бази зображень LIVE, CSIQ, TID2008 та TID2013.
Побудова метрик за порівнянням тестових та еталонних зображень. В [17] побудована нейронна мережа для оцінювання якості зображень із використанням індексу якості зображень (Image Quality Index).
На основі аналізу цих та інших публікацій можна зробити висновок, що задачі автоматичної оцінки якості зображень за допомогою згорткових нейронних мереж становлять значний науковий та практичний інтерес. Однак, на відміну від деяких задач класифікації та розпізнавання зображень, результати застосування нейронних мереж для оцінювання якості зображень значно скромніші. Це зумовлює актуальність досліджень у цьому напрямі.
Мета статті - побудова та дослідження результатів роботи згорткових нейронних мереж для оцінювання якості зображень із використанням для навчання нейронних мереж бази зображень TID2013 для двох варіантів розв'язання задачі - як задачі регресії за даними експертних оцінок якості зображень та як задачі класифікації на п'ять класів за рівнем спотворень зображень.
2. База даних для оцінювання якості зображень TID2013
Як базу зображень для дослідження можливостей та ефективності застосування нейронних мереж для оцінки якості зображень використано базу даних TID2013 [18-19], розроблену для оцінювання та порівняння показників візуальної якості зображень та експертних числових оцінок. Ця база містить 3000 зображень, отриманих на основі 25 еталонних зображень за допомогою 24 типів спотворень для кожного еталонного зображення та 5 рівнів для кожного типу спотворень (25 х 24 х 5 = 3000). Всі зображення подані в форматі .bmp та мають однакові розміри 384 на 512 пікселів. 24 базові зображення є зображеннями реальних об'єктів, а одне базове зображення - синтетичним зображенням із кольоровими геометричними фігурами. Важливою особливістю цієї бази зображень є велика кількість типів спотворень, яка охоплює різні умови отримання зображень, різні рівні освітленості, контрасту, різні типи шумів, втратні стискання зображень тощо. Для кожного зображення наведено середню експертну оцінку його якості, що забезпечує можливості їх використання для навчання нейронних мереж. Крім того, цю базу зображень можна розширити додаванням нових рівнів спотворень.
Експертні оцінки задано одним файлом MOS.txt (MOS - Mean Opinion Score), у якому числові значення впорядковані в лексикографічній послідовності імен файлів зображень. Імена файлів зображень мають вигляд: imn_kl_j.bmp, де mn - двоцифровий номер базового зображення (від 01 до 25), kl - двоцифровий номер типу спотворення (від 01 до 24) та j - одноцифровий номер рівня спотворення (від 1 до 5; значення 5 відповідає найвищому рівню спотворення). Використання ідентифікації файлів важливе для встановлення відповідності зображень експертним оцінкам їх якості під час формування структури даних для нейронної мережі. Використовуючи експертні оцінки, їх нормують до діапазону від 0 до 1.
На рис. 1 наведено приклади зображень з бази TID2013, утворених з чотирьох базових зображень спотвореннями першого типу з п'ятьма рівнями, які використано для навчання нейронної мережі.
У табл. 1 наведено числові значення усереднених експертних оцінок якості зображень з рис. 1 із позначеннями відповідних файлів.
Рис. 1. Приклади зображень з групи зображень для навчання нейронної мережі
Таблиця 1 Експертні оцінки якості зображень з навчальної групи зображень
Файл |
MOS |
Файл |
MOS |
Файл |
MOS |
Файл |
MOS |
Файл |
MOS |
|
І05 01 1 |
5,52500 |
І05 01 2 |
5,50000 |
І05 01 3 |
4,84615 |
І05 01 4 |
4,05128 |
І05 01 5 |
3,56098 |
|
І06 01 1 |
5,75676 |
І06 01 2 |
5,16667 |
І06 01 3 |
5,02703 |
І06 01 4 |
4,31429 |
І06 01 5 |
3,61111 |
|
І07 01 1 |
5,68182 |
І07 01 2 |
5,09091 |
І07 01 3 |
4,80000 |
І07 01 4 |
4,45455 |
І07 01 5 |
3,97619 |
|
І08_01_1 |
5,54839 |
І08_01_2 |
4,70968 |
І08_01_3 |
4,83871 |
І08_01_4 |
4,10000 |
І08_01_5 |
3,54839 |
На рис. 2 наведено приклади зображень з бази TID2013, утворених з чотирьох базових зображень спотвореннями першого типу з п'ятьма рівнями, які використано як перевірні під час навчання нейронної мережі.
У табл. 2 наведено числові значення усереднених експертних оцінок якості зображень з рис. 2 із позначеннями відповідних файлів.
3. Побудова нейронних мереж для оцінювання якості зображень та відповідні структури даних
Розглянуто два варіанти оцінки якості зображень бази TID2013.
В першому варіанті розглянуто задачу регресії, в якій явно використано числові значення усереднених експертних оцінок якості зображень. Всі зображення поділено на дві групи, в першій групі 2400 навчальних зображень з іменами файлів від i05_01_1.bmp до i20_01_5.bmp, в другій групі 600 перевірних зображень з іменами файлів від i21_01_1.bmp до i25_01_5.bmp для перевірки результатів роботи нейронної мережі на файлах, на яких вона не навчалася. На підготовчому етапі формують два файли на основі всіх відповідних зображень - файл вхідних навчальних даних розміром 2400 х 384 х 512 х 3 = 1 415 577 600 байтів та файл вхідних перевірних даних розміром 600 х 384 х 512 х 3 = 353 894 400 байтів. Ці дані перетворюються з формату uint8 у формат float32, що збільшує кількість даних в чотири рази.
Рис. 2. Приклади зображень з групи перевірних для навчання нейронноїмережі
Таблиця 2. Експертні оцінки якості зображень із перевірної групи зображень
Файл |
MOS |
Файл |
MOS |
Файл |
MOS |
Файл |
MOS |
Файл |
MOS |
|
i21_01_1 |
5,51163 |
i21_01_2 |
5,06977 |
i21_01_3 |
4,48837 |
i21_01_4 |
3,90698 |
i21_01_5 |
3,48837 |
|
i22_01_1 |
5,81579 |
i22_01_2 |
5,23684 |
i22_01_3 |
4,84615 |
i22_01_4 |
4,15789 |
i22_01_5 |
3,71795 |
|
i23_01_1 |
5,68571 |
i23_01_2 |
5,05714 |
i23_01_3 |
4,76471 |
i23_01_4 |
4,08571 |
i23_01_5 |
3,73529 |
|
i24_01_1 |
5,88571 |
i24_01_2 |
5,05556 |
i24_01_3 |
4,72222 |
i24_01_4 |
4,14286 |
i24_01_5 |
3,58333 |
Аналогічно формуються відповідні вихідні файли нормованих експертних оцінок якості навчальних та перевірних зображень. Оскільки експертні оцінки в базі TID2013 впорядковані в лексикографічній послідовності за іменами файлів зображень, так само впорядковуються в лексикографічній послідовності дані зображень у кожному із вхідних файлів. Вхідні дані є тензорами з форматами (2400, 384, 512, 3) та (600, 384, 512, 3). Файли вхідних даних поділено на блоки по 20 зображень.
У лівій частині табл. 3 зображено структуру відповідної згорткової нейронної мережі. Для побудови нейронної мережі використано програмні засоби Keras та TensorFlow. Нейронна мережа містить згорткову та повнозв'язну частини у вихідних шарах. У згортковій частині використано функції активації нейронів RELU, у вихідному шарі міститься один нейрон з функцією активації sigmoid відповідно до зміни оцінок якості зображень у межах від 0 до 1.
Функцією оптимізації під час навчання вибрано функцію rmsprop з параметрами, заданими “за замовчуванням”, як параметр втрат (loss) вибрано середню квадратичну похибку (mse - Mean Squared Error), метрикою (metrics) вибрано середню абсолютну похибку (mae - Mean Absolute Error). Такі параметри втрат і метрики зазвичай використовують у задачах регресії.
У табл. 3 відображено структури тензорів на виході відповідних шарів та кількість параметрів (зв'язків) для кожного шару нейронів, що підлягають навчанню.
Таблиця 3. Структури та параметри згорткових нейронних мереж регресії та класифікації
Параметри нейронної мережі регресії |
Параметри нейронної мережі класифікації |
|||||||
Шари нейронів |
Функ-ції активації |
Формат вихідних даних |
К-сть парам. |
Шари нейронів |
Функ-ції активації |
Формат вихідних даних |
К-сть парам. |
|
Conv2D (32, (3, 3)) input_shape = (384, 512, 3) |
relu |
(,382,510,32) |
896 |
Conv2D (32, (3, 3)) input_shape = (384, 512, 3) |
relu |
(,382,510,32) |
896 |
|
MaxPooling2D((2,2)) |
(,191,255,32) |
0 |
MaxPooling2D((2,2)) |
(, 191,255,32) |
0 |
|||
Conv2D (32, (3, 3)) |
relu |
(,189,253,32) |
9248 |
Conv2D (32, (3, 3)) |
relu |
(, 189,253,32) |
9248 |
|
MaxPooling2D((2,2)) |
(,94, 126, 32) |
0 |
MaxPooling2D((2,2)) |
(, 94, 126, 32) |
0 |
|||
Dropout(0.2) |
(,94, 126, 32) |
0 |
Conv2D (64, (3, 3)) |
relu |
(, 92, 124, 64) |
18496 |
||
Conv2D (32, (3, 3)) |
relu |
(,92, 124, 32) |
9248 |
MaxPooling2D((2,2)) |
(, 46, 62, 64) |
0 |
||
MaxPooling2D((2,2)) |
(, 46, 62, 32) |
0 |
Conv2D (64, (3, 3)) |
relu |
(, 44, 60, 64) |
36928 |
||
Dropout(0.2) |
(, 46, 62, 32) |
0 |
MaxPooling2D((2,2)) |
(, 22, 30, 64) |
0 |
|||
Conv2D (32, (3, 3)) |
relu |
(, 44, 60, 32) |
9248 |
Conv2D (128, (3, 3)) |
relu |
(, 20, 28, 128) |
73856 |
|
MaxPooling2D((2,2)) |
(, 22, 30, 32) |
0 |
MaxPooling2D((2,2)) |
(, 10, 14, 128) |
0 |
|||
Dropout(0.3) |
(, 22, 30, 32) |
0 |
Conv2D (128, (3, 3)) |
relu |
(, 8, 12, 128) |
147584 |
||
Conv2D (32, (3, 3)) |
relu |
(, 20, 28, 32) |
9248 |
MaxPooling2D((2,2)) |
(, 4, 6, 128) |
0 |
||
MaxPooling2D((2,2)) |
(, 10, 14, 32) |
0 |
Flatten () |
(, 3072) |
0 |
|||
Dropout(0.4) |
(, 10, 14, 32) |
0 |
Dense (128) |
relu |
(, 128) |
393344 |
||
Conv2D (32, (3, 3)) |
relu |
(, 8, 12, 32) |
9248 |
Dense (5) |
softmax |
(, 5) |
645 |
|
MaxPooling2D((2,2)) |
(, 4, 6, 32) |
0 |
S:680997 |
|||||
Dropout(0.5) |
(, 4, 6, 32) |
0 |
||||||
Flatten () |
(, 768) |
0 |
||||||
Dense (16) |
relu |
(, 16) |
12304 |
|||||
Dense (1) |
sigmoid |
(, 1) |
17 |
|||||
S:59457 |
Під час побудови нейронної мережі виникають задачі вибору типу (структури) нейронної мережі, кількості шарів нейронів та кількості нейронів у кожному шарі. Крім того, потрібно вибрати функції активації, функції процедури навчання, можливу доцільність додавання додаткових шарів з метою зменшення впливу ефекту перенавчання. Значна частина цих складових вибору є емпіричною і ґрунтується на виконанні числових експериментів та узагальненні їх результатів.
Була вибрана класична структура згорткової нейронної мережі для задач обробки зображень, які зводяться до задач регресії. Оскільки якість зображення визначається як значеннями окремих пікселів, так і взаємозв'язками окремих пікселів у структурні елементи, початковий варіант вибору кількості шарів та нейронів у них (для задач оцінки якості зображення) зазвичай орієнтується на загальну кількість байтів у зображеннях (у цьому випадку 384 х 512 х 3 = 589 824). Надалі під час експериментів кількість коригують зі зміною структури нейронної мережі.
Під час навчання нейронної мережі важлива величина бази зображень для навчання. Кількість зображень 3000 у базі TID2013 з виділенням з неї перевірної частини є порівняно невеликою. Збільшити кількість зображень наявної бази можна, якщо використовується процедура отримання із заданого зображення сукупності зображень операціями деформацій, дзеркального відображення, обертань тощо [20]. Такий метод добре працює у задачах нейромережевої класифікації зображень, однак малопридатний для задач оцінки якості зображень, оскільки якість зображень у такому разі переважно візуально погіршується.
Навчання згорткових нейронних мереж для опрацювання зображень зазвичай потребує значних обчислювальних ресурсів, використання графічних процесорів GPU. Зменшити необхідні обчислювальні ресурси можна з використанням згорткової основи попередньо навченої нейронної мережі, наприклад, VGG16 [20] з подальшими добудовою та донавчанням доданої частини ней- ронної мережі. Цей метод доцільний для задач класифікації та розпізнавання зображень, однак на підставі експериментів можна зробити висновок про невисоку ефективність цього підходу для оцінювання якості зображень.
На рис. 3, а наведено графік зміни параметрів точності для навчальних та перевірних зображень залежно від кількості ітерацій під час навчання. Як видно з цих графіків, якщо ітерацій більше ніж вісім, відбувається перенавчання, мінімальне значення середньої абсолютної похибки для перевірної групи зображень дорівнює 0,163, незважаючи на використання одного з методів регуляризації - шару Dropout.
а б
Рис. 3. Параметри точності для навчальних та перевірних зображень у задачах регресії (а) та класифікації (б)
В другому варіанті розглянуто задачу класифікації, в якій числові значення усереднених експертних оцінок якості зображень використано неявно. Кожне зображення за якістю належить до однієї із п'яти груп. Поділ всіх зображень бази TID2013 на навчальну та перевірну вибірки такий самий, як і для задачі регресії. Використана плату графічного процесора NVIDIA GeForce RTX 2060.
У правій частині табл. 3 подано структуру та параметри нейронної мережі класифікації.
У всіх шарах, крім останнього, вибрано функцію активації нейронів RELU, в останньому шарі, внаслідок класифікації за п'ятьма класами, використано функцію softmax. Функцією оптимі- зації під час навчання вибрана така сама функція rmsprop, як параметр втрат (loss) вибрана категорійна перехресна ентропія (categorical_crossentropy), метрикою (metrics) - точність класифікації (acc) - частка правильно класифікованих зображень. Під час формування вхідних зображень для нейронної мережі застосовано генератор ImageDataGenerator, вхідні зображенні були розділені на блоки по 20 зображень.
Під час розв'язування задач за допомогою нейронних мереж важливо мати деякі точки відліку, на які можна орієнтуватися, оцінюючи ефективність функціонування нейронної мережі [20]. У цій задачі класифікації такою точкою відліку є частка правильної класифікації за випадкового вибору класу з однаковою імовірністю для всіх класів, тобто орієнтиром є точність класифікації 0,2.
На рис. 3, б відображено залежність точності класифікації для навчальної та перевірної множин зображень від кількості ітерацій під час навчання.
На цих графіках видно також ефект перенавчання, тобто точність класифікації для пере вірних даних не лише не збільшується за кількості ітерацій понад 50-55, як для навчальних зображень, але й зменшується. Значення точності при цьому коливаються у межах від 0,26 до 0,335.
Оскільки зображення, які належать до сусідніх класів, мають близькі значення середніх експертних оцінок, доцільно розширити задачу чіткої класифікації задачею нечіткої. Для цього доцільно для кожного класу ввести нечітке значення належності.
Висновки
Останніми роками істотно розвинулося дослідження можливостей та особливостей застосування згорткових нейронних мереж для отримання числової оцінки якості зображень. Для тестування та навчання нейронних мереж необхідні відповідні бази даних тестових зображень. Серед наявних баз даних зображень вибрана база даних TID2013, яка містить переважно реальні базові зображення, а також одне синтетичне тестове зображення, з 24 типами різних спотворень базових зображень та п'ятьма рівнями цих спотворень із числовими експертними оцінками якості зображення. Значна кількість різних типів спотворень, порівняно з деякими іншими базами зображень, дає змогу дослідити можливості нейромережевого оцінювання якості зображень різних типів з різними джерелами походження, різними типами та рівнями спотворень. Загальну кількість 3000 зображень було поділено на дві групи - 2400 навчальних зображень та 600 перевірних.
Групи відрізнялися лише базовими зображеннями, а всі типи та рівні спотворень були однакові в обох групах. Розглянуто два основні варіанти побудови згорткових нейронних мереж. В першому з них розв'язувалася задача регресії за заданими нормованими значеннями середніх експертних оцінок якості всіх зображень з обчисленням середніх квадратичних та абсолютних помилок під час навчання. У цьому випадку оцінка якості подається у термінах цих величин. Для побудованої ней- ронної мережі отримано середню абсолютну похибку 0,163 для перевірних зображень. Другий варіант нейронної мережі полягав у розв'язанні задачі класифікації, за якої всі зображення розподілено, відповідно до п'яти рівнів спотворень, на п'ять класів навчальних і перевірних зображень. Кількісна оцінка ефективності нейронної мережі полягає у точності (частці правильно класифікованих зображень) зарахування зображення до відповідного класу якості без безпосереднього використання кількісних значень експертних оцінок. Досягнуто точності класифікації у межах від 0,26 до 0,335 для перевірних зображень.
Список використаних джерел
1. Wang Z., Bovik A.C., Lu L. “Why is image quality assessment so difficult?”, Proceedings of 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, 13-17 May 2002, Orlando, FL, USA, Vol. 4, pp. IV-3313-IV-3316.
2. Грицик В.В. “Основні оцінки якості зображення, які сьогодні використовуються при розв'язуванні проблеми автоматичної обробки образів”, Штучний інтелект, 2017, № 1, с. 38-44.
3. Lin W., Kuo C.-C.J. “Perceptual visual quality metrics: A survey”, Journal of Visual Communication and Image Representation, May 2011, 22 (4), pp. 297-312.
4. Soundararajan R., Bovik A. “Survey of information theory in visual quality assessment”, Signal Image and Video Processing, May 2013, 7(3), pp. 391-401.
5. Shahid M., Rossholm A., Lovstrom B., Zepernick H.-J. “No-reference image and video quality assessment: a classification and review of recent approaches”, EURASIP Journal on Image and Video Processing, 2014 (1). 32 p.
6. Madeed N.A., Awan Z., Madeed S.A. “Image quality assessment - a survey of recent approaches”, 8th International Conference on Computer Science, Engineering and Applications, 2018, pp. 143-156.
7. Ismail T.A., Chen S.., Norziana J., Mohamad M.A. “Improve of contrast-distorted image quality assessment based on convolutional neural networks”, International Journal of Electrical and Computer Engineering (IJECE), Vol. 9, № 6, December 2019, pp. 5604-5614.
8. Bosse S., Maniry D., Muller K.-R., Wiegand T., Samek W. “Deep neural networks for no-reference and full-reference image quality assessment”, arXiv:1612.01697v2 [cs. CV] 7Dec. 2017, 14p.
9. Piccini D., Demesmaeker R., Heerfordt J., Yerly J., Sopra L.D., Masci P.G., Schwitter J., Van De Ville, D., Richiardi, J., Kober, T. and Stuber, M. “Deep learning to automate reference-free image quality assessment of whole-heart MR images”, Radiology: Artificial Intelligence 2020; 2(3),
10. Athar S., Wang Z., Wang Z. “Deep neural networks for blind image quality assessment: addressing the data challenge”, arXiv:2109.12161v1 [eess.IV] 24 Sep 2021, 22p.
11. Cheon M., Yoon S.-J., Kang B., Lee J. “Perceptual image quality assessment with transformers”, arXiv:2104.14730v2 [cs. CV] 5 May 2021, 10p.
12. Saeed S.U., Fu Y., Stavrinides V., Baum Z.M.C., Yang Q., Rusu M., Fa, R. E., Sonn, GA., Noble, J. A., Barratt, D. C. and Hu, Y. “Image quality assessment for machine learning tasks using meta-reinforcement learning”, Medical Image Analysis, 78 (2022), arXiv:2203.14258v1 [eess.IV] 27Mar 2022, 15p.
13. Dodge S., Karam, L. “Understanding how image quality affects deep neural networks”, arXiv:1604.04004v2 [cs. CV] 21 Apr 2016, 6p.
14. Li Y., Po L.-M., Feng L., Yua F. “No-reference image quality assessment with deep convolutional neural networks”, 2016 IEEE International Conference on Digital Signal Processing (DSP), 16-18 October 2016, Beijing, China,
15. Simonyan K., Zisserman A. “Very deep convolutional networks for large-scale image recognition”, arXiv:1409.1556v6[cs.CV] 10 Apr 2015, 14p.
16. Bianco S., Celona L., Napoletano P., Schettini R. “On the use of deep learning for blind image quality assessment”, arXiv:1602.05531v5 [cs.CV] 4 Apr 2017, 8p.
17. Gu K., Zhai G., Yang X., Zhang W. “Deep learning network for blind image quality assessment”, 2014 IEEE International Conference on Image Processing (ICIP), 27-30 October 2014
18. Ponomarenko N., Jin L., Ieremeiev O., Lukin V., Egiazarian K., Astola J., Vozel B., Chehdi K., Carli M., Battisti F., Kuo C.-C. J. “Image database TID2013: Peculiarities, results and perspectives”, Signal Processing: Image Communication, 30 (2015), pp. 57-77.
19. Ponomarenko N., Ieremeiev O., Lukin V., Jin L., Egiazarian K., Astol J., Vozel B., Chehdi K., Carli M., BattistiF. and Kuo C.-C. J. “A new color image database TID2013: Innovations and results”, Proceedings of ACIVS, Poznan, Poland, Oct. 2013, pp. 402-413.
20. Chollet F. Deep Learning with Python, 2nd ed., Manning Publications Co., 2021, 478p.
Размещено на Allbest.ru
...Подобные документы
Загальна характеристика теорії редагування зображень, місце у ній растрових зображень. Аналіз переваг та недоліків програм малювання і векторної графіки. Структура, розмір і розширення зображення. Сутність і призначення основних форматів графічних файлів.
реферат [1,1 M], добавлен 13.10.2010Розкриття вмісту теорії стискування і опис класифікаційних характеристик методів компресії з втратами і без втрат. Оцінка втрат якості зображень при їх стискуванні за допомогою програм-кодеків. Розрахунок математичної моделі кодера стискання зображень.
дипломная работа [1,1 M], добавлен 25.11.2012Растрові формати зображень tiff, bmp, pcx, gif, jpeg, png, опис растрової графічної інформації. Зручність та недоліки векторних форматів. Зберігання і обробка зображень, що складаються з ліній, або можуть бути розкладені на прості геометричні об'єкти.
контрольная работа [2,5 M], добавлен 19.09.2009Використання CMY та CMYK для опису кольору при отриманні зображень методом поглинання кольорів. Субтрактивні кольори: блакитний (Cyan), пурпурний (Magenta) та жовтий (Yellow). Моделювання розповсюдження світла в об'ємі напівпрозорого середовища.
контрольная работа [3,5 M], добавлен 22.10.2009Історія виникнення та сфери використання тримірної графіки. Дослідження процесу візуалізації тримірного зображення. Створення програмного забезпечення, здатного перетворювати стандартні графічні зображення до графічних зображень внутрішніх форматів Мауа.
дипломная работа [3,6 M], добавлен 23.09.2013Програмний продукт "Графічний кодер чорно-білих зображень". Аналіз технологій одержання компактних подань відеоінформації способом організації кодування й пошук шляхів підвищення їх ефективності. Кодування зображень на основі зміни градації яскравості.
дипломная работа [1,8 M], добавлен 29.06.2009Принципи побудови тривимірних зображень у ГІС засобами комп’ютерної графіки. Інформативність та точність моделей, створених на основі растрових і векторних програм. Технологія побудови 3D-карт за допомогою "ArcGIS/3D Analyst" та "MapInfo"/"Поверхность".
дипломная работа [700,6 K], добавлен 10.05.2015Методи поліпшення растрових зображень. Параметри виду, буфер глибини, джерело світла в бібліотеці Opengl. Створення тривимірної фігури та забезпечення її повороту за допомогою Opengl, виконання операції масштабування з використанням клавіші "+" та "-".
контрольная работа [139,4 K], добавлен 12.09.2009Розробка динамічних та статичних зображень для сайту за допомогою відеоредактора Adobe After EffectCS6 та графічного редактора Adobe Photosop CS6. Розробка структури сайту. Багатоваріантний аналіз розв’язку задачі. Створення анімованого логотипу.
курсовая работа [1,8 M], добавлен 07.12.2014Області застосування методів цифрової обробки зображень. Динамічний діапазон фотоматеріалу. Графік характеристичної кривої фотоплівки. Загальне поняття про High Dynamic Range Imaging. Тональна компресія та відображення. Головні стегано-графічні методи.
контрольная работа [1,6 M], добавлен 10.04.2014Призначення та область застосування програм, які орієнтовані на перетворення зображень з плоского в об’ємне. Основні стадії формування тривимірного зображення. Класифікація моделей і методів візуалізації. Особливості створення карти глибин по пікселям.
курсовая работа [325,8 K], добавлен 04.06.2010Синтез, обґрунтування і дослідження моделей мультиграничної сегментації на основі зв’язків покриттів. Введення і дослідження операцій на класах еквівалентностей або толерантностей для перетворень результатів сегментації для отримання областей зображень.
автореферат [199,1 K], добавлен 11.04.2009Теоретичне дослідження особливостей проектування систем дистанційного навчання. Створення програмного забезпечення процедури статистичної обробки результатів тестування знань і оцінки якості тесту. Економічне обґрунтування доцільності розробки програми.
дипломная работа [3,6 M], добавлен 22.10.2012Основні теоретичні відомості алгоритмів стиснення зображень: класи зображень та їх представлення в пам'яті, алгоритми та принципи групового кодування. Огляд та аналіз сучасних програмних засобів конвертування. Тестування, опис роботи програмного засобу.
курсовая работа [2,9 M], добавлен 15.03.2014Модель обробки файлів растрових зображень. Середній квадрат яскравості. Фільтри для виділення перепадів і границь. Опис та обґрунтування вибору складу технічних та програмних засобів. Опис інтерфейсу програми. Зображення діалогового вікна програми.
курсовая работа [664,3 K], добавлен 30.06.2009Графічна підсистема Delphi 5, її можливості, інструменти та принципи побудови прикладних програм з використанням графіки; дочірні класи. Методи опрацювання графічних зображень різних форматів і типів: растрових файлів, метафайлів Windows, піктограм.
лабораторная работа [47,9 K], добавлен 19.03.2011Основні поняття теорії інформації та їх роль у визначенні фундаментальних меж представлення інформації. Телевізійні стандарти стиснення. Кодер і декодер каналу. Стандарти стиснення двійкових та півтонових нерухомих зображень. Кодування бітових площин.
дипломная работа [8,1 M], добавлен 02.10.2014Поняття трассировки та її значення в роботі комп'ютерного дизайнера. Розвиток інструментів трассировки в програмі Corel Drow. Способи та процеси векторної трассировки растрових зображень: автоматичне, ручне та утиліта, їх головні недоліки та привілеї.
реферат [1,8 M], добавлен 30.05.2010Розробка сайту-візитки компанії, яка надає послуги в ІТ-галузі та оцінювання створеного сайту. Структурне розположення усіх html, css—файлів та зображень. Створення текстового документу з іменем index та розширенням .html. Тестування сторінки в браузері.
курсовая работа [1,9 M], добавлен 25.06.2015Стандартний спосіб розв’язання задачі Коші для звичайного диференціального рівняння першого порядку чисельними однокроковими методами. Геометричний зміст методу Ейлера. Побудова графіку інтегральної кривої. Особливість оцінки похибки за методом Рунге.
курсовая работа [112,9 K], добавлен 30.11.2009