Исследование повышения разрешения изображений с помощью обучения сверточных фильтров
Использование одиночного сверточного фильтра для повышения разрешения изображения. Сверточные фильтры, метрики качества. Однослойная нейронная сеть. Модель Raiser. Двухслойная нейронная сеть. Фильтры оператора Лапласа. Сущность бикубической интерполяции.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 23.09.2018 |
Размер файла | 7,0 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
[Введите текст]
Правительство Российской Федерации
Федеральное государственное автономное образовательное
учреждение высшего образования
«Национальный исследовательский университет
«Высшая школа экономики»
Факультет компьютерных наук
Основная образовательная программа
Прикладная математика и информатика
ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
на тему: Исследование повышения разрешения изображений с помощью обучения сверточных фильтров
Москва 2018
Введение
В настоящее время все большее распространение получают технологии, связанные с применением методов повышения разрешения изображения [1]. Это классическая задача компьютерного зрения, которая заключается в получении изображения в высоком разрешении из оригинального изображения с низким разрешением и меньшими размерами. Данные методы используются в космическом мониторинге, что позволяет получить наиболее точную информацию о состоянии поверхности Земли и предотвратить стихийные бедствия и экологические проблемы. Помимо этого, обработка снимков со спутника помогает в поисках новых месторождений, проектировании, а также сельской и военной отраслях, где повышение разрешения полученных изображений приводит к улучшению составленных данных. Методы повышения разрешения изображения также используются для верной идентификации номерных знаков транспортных средств при обработке фотоматериалов, полученных с камер фотовидеофиксации, которые выявляют нарушения правил дорожного движения. А недавно получили применение и в повышении разрешения фильмов, снятых до начала информационной эры.
Задача повышения разрешения изображения активно исследуется на протяжении многих лет, и уже существует несколько методов и подходов для ее реализации. Каждый из них имеет свои преимущества и недостатки, выраженные в соотношении скорости обработки изображения и обучения модели, сложности используемой архитектуры и качестве обработанного изображения. Чтобы получить исходное изображение в лучшем качестве, применяются классические методы билинейной и бикубической интерполяции [2], позволяющие получить средние значения обработанных изображений благодаря быстрой и простой в реализации обработке исходника, но не учитывающие содержание обрабатываемой картинки, а потому нередко имеющие характерные искажения или сильно размытые части изображения. Кроме того, для повышения разрешения исходного изображения используют оператор Лапласа (лапласиан) [2], который инвариантен к поворотам обрабатываемого изображения, отлично сохраняет фоновые полутона и улучшает отображение мелких деталей на изображении, позволяя получить сравнительно хорошее качество обработанных изображений без использования высоких мощностей для обработки данных. Также используемые сверточные нейронные сети (SRCNN) [3] обеспечивают высокое качество полученных изображений и среднее время обработки изображения модели, однако требуют длительного времени для обучения модели и достаточно высоких мощностей. Помимо перечисленных выше методов, высокие значения обработанного изображения удается получить при использовании разреженных представлений [4], которые отлично осуществляют детализацию и выделение контуров, но используют большой словарь сигналов, требующий высоких мощностей для реализации обучения модели. Лучшее качество при решении задачи повышения разрешения изображения на данный момент предоставляют конкурентные сети (SRGAN) [5], которые сравнительно хорошо восстанавливают даже узоры исходного изображения, но тратят длительное время для его обработки. Кроме того, их настройка является трудоемкой. А одной из последних работ на эту тему стала модель RAISR [6], которая не требует больших вычислительных мощностей для обработки исходного изображения несмотря на многоуровневую архитектуру. Время обработки изображения и обучения модели у RAISR также значительно меньше, чем при применении сверточных нейронных сетей и конкурентных сетей, несмотря на то, что качество обработанных изображений им практически не уступает. Кроме того, при использовании данной модели нет необходимости использовать большой словарь для обучения модели, как это делается при использовании разреженных представлений, а основную часть обработки исходника осуществляют сверточные фильтры.
Проблема повышения разрешения изображения, в основном, исследуется с целью улучшить качество получаемого изображения, сократить время его обработки и время обучения модели, упростить выбранную архитектуру, снизить количество необходимой вычислительной мощности. Поскольку использование сверточных фильтров позволяет получить хорошее качество обработанного изображения при сравнительно простой структуре модели и высокой скорости обучения и встречается в большом количестве известных методов повышения разрешения изображения, целью выпускной квалификационной работы было выбрано их изучение с последующей возможностью применения аналогично известным методам. В силу ограничений вычислительной мощности и наличия уже проведенных исследований, доказывающих, что для получения сравнительно хорошего качества обработанного изображения наиболее часто достаточно использовать один или несколько слоев сверточных фильтров, была поставлена задача изучения повышения разрешения изображения с помощью обучения сверточных фильтров, эквивалентных простым, состоящим только из одного или нескольких слоев свертки моделям. Данный подход, несмотря на его преимущества, не так глубоко исследован. При одинаковой структуре и, следовательно, одинаковой скорости работы модели ставилась задача построить простые модели, состоящие только из слоев свертки, чтобы сравнить полученные фильтры, и получить качество обработанных изображений по выбранным метрикам лучше, чем при использовании других методов повышения разрешения изображения с простой архитектурой, а именно, бикубической интерполяции и оператора Лапласа. Для удобства контроля скорости работы модели были использованы нейронные сети.
1. Использование одиночного сверточного фильтра для повышения разрешения изображения
1.1 Сверточные фильтры
Сверточные фильтры являются одним из наиболее популярных подходов, используемых для обработки изображений и повышения их разрешения. Они представляют из себя матрицу некоторых числовых значений, именуемую матрицей параметров или матрицей весов. Данные фильтры производят свертку путем поэлементного умножения значений матрицы на исходные значения пикселей обрабатываемого изображения. Для получения итогового значения пикселя результаты произведенных умножений суммируются, данная операция повторяется для каждого элемента обрабатываемого изображения. Результатом работы сверточного фильтра является новая матрица, состоящая из значений пикселей полученного изображения.
Формула получения значения обработанного изображения:
(1)
(где - исходная матрица изображения, - матрица параметров, - координаты исходного изображения, - координаты матрицы параметров)
Помимо настраиваемых значений матрицы фильтра, в ходе обучения модели каждый сверточный фильтр также настраивает значения сдвига (bias), которые прибавляются к выходу для получения наиболее точных значений обработанного изображения.
Использование сверточных фильтров позволяет получить сравнительно хорошее качество получаемых изображений без применения огромных словарей данных, больших вычислительных мощностей, долгого времени обучения выбранной модели и обработки исходного изображения. Более того, данный метод позволяет повышать разрешение изображений с различными цветовыми режимами и каналами.
1.2 Классические методы повышения разрешения изображения
Классические методы повышения разрешения изображения, такие, как применение интерполяции и оператора Лапласа, также позволяют улучшить качество любого вида обрабатываемого изображения.
Бикубическая интерполяция - это одна из базовых техник повышения качества обрабатываемого изображения. Она используется для нахождения значений дополнительных пикселей изображения между опорными точками, которыми являются пиксели исходного изображения, выбранные на каждом квадрате размера 4х4. Для нахождения значений дополнительных пикселей используются значения пикселей изображения выбранной области обрабатываемого изображения и их координаты, т.е. место в изображении. С помощью анализа системы из шестнадцати независимых уравнений получаются данные о коэффициентах общего полинома внутри выбранной области. При наличии нескольких цветовых каналов у обрабатываемого изображения данная операция повторяется для каждого из них.
Общее полиномиальное бикубическое уравнение:
(2)
(где - координаты пикселя, - значение пикселя в исходном изображении, а - настраиваемые коэффициенты)
Лапласиан - это линейный оператор, который использует вторую производную и применяется для выделения контуров текстур и объектов изображения. Добавление изображения, обработанного с использованием оператора Лапласа, к исходному изображению, позволяет добиться более четких границ исходника.
(3)
(4)
(5)
(где - значение оператора Лапласа для функции от двух переменных , - значение пикселя c координатами обработанного изображения)
В данной работе используется реализация оператора Лапласа, с применением которой есть возможность обрабатывать диагональные элементы.
-1 |
-1 |
-1 |
|
-1 |
8 |
-1 |
|
-1 |
-1 |
-1 |
Рис. 1.1 - Матрица оператора Лапласа, учитывающего диагональные элементы
Несмотря на то, что данные методы имеют определенные достоинства, изложенные мной выше, они также обладают рядом недостатков. Например, при обработке они не учитывают особенности узоров, текстур и объектов изображения, позволяют достичь среднее качество получаемых изображений по основным метрикам, а также не обучаются, поэтому хорошо работают в общем случае, хотя для конкретных данных можно получить лучшие значения. В данной работе была выделена цель улучшить получаемое качество изображения по данным метрикам без усложнения архитектуры моделей.
1.3 Метрики качества
Для сравнения полученного качества обработанных изображений широко применяются базовые метрики, используемые в большинстве методов повышения разрешения изображения: среднеквадратическая ошибка, пиковое отношение сигнала к шуму и индекс структурного сходства.
MSE (среднеквадратическая ошибка) - это метрика, значение которой является средним квадратом ошибки определения значения функции. Метод с наименьшим значением MSE является наиболее успешным.
(6)
(где mn - размер изображения, f' - значение пикселя сравниваемого изображения, f - значение пикселя оригинального изображения в высоком разрешении)
PSNR (пиковое отношение сигнала к шуму) - это метрика, значение которой равно соотношению между мощностью шума, искажающего значение функции, и максимумом ее возможного значения, который в случае работы с пикселями равен 255.
(7)
SSIM (индекс структурного сходства) - это метрика, значение которой равно уровню схожести двух изображений, полученному с помощью их полного сопоставления. Она разработана таким образом, чтобы также учитывать сходство высокочастотного содержимого между сравниваемыми изображениями. Методы, удаляющие шум и сохраняющие края объектов, имеют наиболее высокие значения SSIM.
(8)
(9)
(10)
(где x и y - это набор пикселей в сравниваемых изображениях, - среднее значение пикселя для набора x, - среднее значение пикселя для набора y, - дисперсия значений набора пикселей x, - дисперсия значений набора пикселей y, - ковариация наборов пикселей x и y, и - две переменные, L - динамический диапазон пикселей)
1.4 Использованные данные
Широко распространено использование определенных наборов изображений, которые применяются практически во всех работах, связанных с темой повышения разрешения изображения. Их использование во многом обусловлено тем, что исследователи преследуют цель обучения моделей и сравнения качества их работы по полученным значениям используемых метрик, чего достаточно просто добиться при использовании идентичных выборок. В данной работе был использован один из таких наборов изображений, состоящий из тестовых выборок Set5, Set14, также применявшихся для оценивания результатов в моделях RAISR, SRCNN и SRGAN.
Набор изображений был разделен на обучающую, проверочную и тестовую выборки, которые изначально состояли из 77, 13 и 19 изображений соответственно. Обучающая выборка - это набор изображений, с помощью которых осуществляется обучение модели и настройка сверточных фильтров. Проверочная (валидационная) выборка - это набор изображений, с помощью которой происходит измерение полученных во время обучения модели значений функции потерь на каждой эпохе обучения. Тестовая выборка - это набор изображений, с помощью которой оценивается качество обученной модели.
Каждая выборка состоит из пар изображений, которые подаются в качестве исходного и полученного. На выход модели подаются изображения в оригинальном качестве без каких-либо изменений, т.е. в высоком разрешении, а на вход эти же изображения, сначала уменьшенные в два раза, а затем вновь увеличенные с применением бикубической интерполяции. Из-за ограничений вычислительных мощностей и использования исходных изображений с различными размерами и цветовыми режимами, перед созданием пар каждое изображение было разделено на несколько изображений размера 100х100 пикселей, а затем еще повернуто на 90, 180 и 270 градусов, после чего все пары изображений были перемешаны внутри каждой выборки. Данная операция была внесена для того, чтобы увеличить объемы выборок. После разделения изображений на части 100х100 и применения поворотов, количество пар изображений в каждой выборке также увеличилось (см. таблицу 1.1).
Таблица 1.1 - Количество изображений в выборках
Тестовая выборка |
Валидационная выборка |
Обучающая выборка |
Set5 |
Set14 |
||
Исходный набор |
77 |
13 |
19 |
5 |
14 |
|
Итоговый набор (с применением поворотов и разделения на части 100x100) |
1224 |
176 |
1260 |
172 |
1088 |
Поскольку в ходе исследования были обучены как модели, обрабатывающие только изображения с режимом градаций серого, так и модели, использующие для обучения изображения с цветовым режимом RGB, для моделей первого типа все пары изображений были заменены на аналоги с режимом градаций серого, а для всех моделей второго типа все пары изображений были переведены в режим RGB.
1.5 Однослойная нейронная сеть
В ходе выполнения исследования были сформулированы две основные задачи. Первая задача заключалась в построении двух моделей, обрабатывающих черно-белые и цветные изображения соответственно. Каждая модель являлась однослойной нейронной сетью, состоящей из слоев свертки размера 3х3, количество которых совпадало с количеством каналов в обрабатываемых изображениях. То есть, первая модель состояла из 1 слоя свертки с указанными размерами, а вторая модель обучалась с 3 фильтрами. Выбранная архитектура модели является аналогом базовых фильтров Лапласианов, используемых в классических методах повышения разрешения изображения, поскольку их применение обусловлено использованием лишь одного слоя свертки.
Рис. 1.2 - Визуализация первой модели, обрабатывающей изображения с режимом градаций серого
Рис. 1.3 - Визуализация первой модели, обрабатывающей изображения с режимом RGB
В качестве функции потери для обучения моделей была выбрана среднеквадратическая ошибка, а в качестве оптимизационного алгоритма был применен Adam (adaptive moment estimation) [7]. Функцией активации была выбрана способствующая быстрому обучению и не выполняющая ресурсоемких операций функция ReLU (Rectified Linear Unit) [8].
Дополнительная задача заключалась в получении лучших значений разрешения изображений, обработанных данными моделями, для выбранных метрик, чем результаты оценивания качества изображений, полученных при использовании билинейной интерполяции и фильтров Лапласианов.
Как видно из таблиц 1.2, 1.3, 1.4 и 1.5, значения метрик при использовании оператора Лапласа становились ниже. Однако при визуальном оценивании полученных изображений заметно, что они выглядят значительно четче, чем исходные, с применением бикубической интерполяции. Значения PSNR и SSIM модели, обучающей черно-белые изображения, для всех тестовых выборок, кроме Set5, оказались выше результатов, полученных с применением бикубической интерполяции и оператора Лапласа. Значения PSNR тестовой выборки Set5 для данной модели оказались незначительно ниже, чем значения данной метрики при применении бикубической интерполяции. Но результаты метрики SSIM, учитывающей также сходство высокочастотного содержимого, для данного набора изображений оказались выше, чем ее значения при применении классических методов. Важно отметить, что аналогичная модель, обученная для обработки цветных изображений, показала значения выше оригинальных по обеим метрикам для всех тестовых выборок.
Поскольку во время обучения выбранных моделей автоматически также настраивались и сдвиги фильтров, результаты качества обработанных изображений были посчитаны и при оригинальной настройке фильтров, и с нулевым сдвигом. Данные измерения были проведены для того, чтобы верно оценить полученные значения и сравнить их с результатами метрик для бикубической интерполяции и оператора Лапласа, которые сдвиги не учитывают. Все результаты выбранных метрик для тестовых выборок при использовании нулевого сдвига оказались ниже значений, полученных с применение его значений, настроенных в ходе обучения модели. Только значение SSIM на выборке Set5 для модели, обрабатывающей изображения с цветовым режимом градаций серого, показало значения немного выше прежнего результата.
Таблица 1.2 - Значения PSNR первой модели с режимом градаций серого
Бикубическая интерполяция |
Бикубическая интерполяция и оператор Лапласа |
Первая модель |
Первая модель с нулевым сдвигом |
||
Тестовая выборка |
27.6965971733 |
27.0938131465 |
28.4269068015 |
28.4160311772 |
|
Set5 |
31.3020557059 |
30.4734484203 |
31.1517424438 |
31.1379875445 |
|
Set14 |
27.1266165964 |
26.5595325701 |
27.9961423433 |
27.9857218986 |
Таблица 1.3 - Значения SSIM первой модели с режимом градаций серого
Бикубическая интерполяция |
Бикубическая интерполяция и оператор Лапласа |
Первая модель |
Первая модель с нулевым сдвигом |
||
Тестовая выборка |
0.808942521008 |
0.796779933914 |
0.847272451947 |
0.847243756002 |
|
Set5 |
0.891099641769 |
0.876578923455 |
0.917507049294 |
0.917716912616 |
|
Set14 |
0.79595444677 |
0.784164652479 |
0.836169188395 |
0.836102779037 |
Таблица 1.4 - Значения PSNR первой модели с цветовым режимом RGB
Бикубическая интерполяция |
Бикубическая интерполяция и оператор Лапласа |
Первая модель |
Первая модель с нулевым сдвигом |
||
Тестовая выборка |
27.2078714506 |
26.6480874616 |
28.095785639 |
28.0869182256 |
|
Set5 |
31.0112492522 |
30.2345389499 |
31.1192810736 |
31.1056153098 |
|
Set14 |
26.6066021658 |
26.0811116748 |
27.6178065813 |
27.6096977306 |
Таблица 1.5 - Значения SSIM первой модели с цветовым режимом RGB
Бикубическая интерполяция |
Бикубическая интерполяция и оператор Лапласа |
Первая модель |
Первая модель с нулевым сдвигом |
||
Тестовая выборка |
0.806364225132 |
0.795693057826 |
0.846613014141 |
0.84656443658 |
|
Set5 |
0.892216134629 |
0.880425167524 |
0.920951092264 |
0.920921365662 |
|
Set14 |
0.792792048263 |
0.782297908131 |
0.834861038556 |
0.834809480879 |
(а) |
(б) |
(в) |
|
SSIM: 1.00 |
SSIM: 0.81 |
SSIM: 0.83 |
|
PSNR: 24.9108 |
PSNR: 25.3326 |
Рис. 1.4 - слева направо: (а) оригинал, (б) изображение, полученное с помощью применения бикубической интерполяции, и (в) изображение, полученное после повышения разрешения первой моделью, обрабатывающей изображения в цветовом режиме градаций серого
(а) |
(б) |
(в) |
|
SSIM: 1.00 |
SSIM: 0.81 |
SSIM: 0.83 |
|
PSNR: 24.9108 |
PSNR: 25.3301 |
Рис. 1.5 - слева направо: (а) оригинал, (б) изображение, полученное с помощью применения бикубической интерполяции, и (в) изображение, полученное после повышения разрешения первой моделью, обрабатывающей изображения в цветовом режиме градаций серого, с нулевым сдвигом
(а) |
(б) |
(в) |
|
SSIM: 1.00 |
SSIM: 0.70 |
SSIM: 0.77 |
|
PSNR: 21.2773 |
PSNR: 22.8026 |
Рис. 1.6 - слева направо: (а) оригинал, (б) изображение, полученное с помощью применения бикубической интерполяции, и (в) изображение, полученное после повышения разрешения первой моделью, обрабатывающей изображения в цветовом режиме RGB
(а) |
(б) |
(в) |
|
SSIM: 1.00 |
SSIM: 0.70 |
SSIM: 0.77 |
|
PSNR: 21.2773 |
PSNR: 22.7998 |
Рис. 1.7 - слева направо: (а) оригинал, (б) изображение, полученное с помощью применения бикубической интерполяции, и (в) изображение, полученное после повышения разрешения первой моделью, обрабатывающей изображения в цветовом режиме RGB, с нулевым сдвигом
1.6 Выводы и результаты по главе
В ходе обучения моделей были получены фильтры, отличные от известных фильтров оператора Лапласа (см. рис. 1.8-1.11). Несмотря на наличие в выборках изображений, повернутых на 90, 180 и 270 градусов, не все цветовые каналы фильтров оказались симметричными и частично похожими с лапласианом. Стоит отметить, что фильтры модели, обучаемой на изображениях с цветовым режимом RGB, в значительной степени обрабатывают изображения с использованием соответствующего цветового канала. Значения по другим цветовым каналам также учитываются, однако оказываются значительно ближе к нулю, чем те значения, которые принимает фильтр соответствующего цветового канала.
Рис. 1.8 - Фильтр, полученный после обучения первой модели, обрабатывающей изображения с режимом градаций серого
Рис. 1.9 - Фильтр 1, полученный после обучения первой модели, обрабатывающей изображения с режимом RGB
Рис. 1.10 - Фильтр 2, полученный после обучения первой модели, обрабатывающей изображения с режимом RGB
Рис. 1.11 - Фильтр 3, полученный после обучения первой модели, обрабатывающей изображения с режимом RGB
2. Использование набора сверточных фильтров для повышения разрешения изображения
2.1 Модель RAISR
Модель RAISR позволяет получить высокие значения по метрикам PSNR и SSIM, однако обладает сложной структурой. Для ее обучения необходимы серьезные вычислительные мощности и длительный период времени, но сама обработка изображений происходит достаточно быстро, поскольку основная часть обработки изображений производится с помощью сверточных фильтров, слои которых устроены так, что модель RAISR обучается для выбора лучшего из представленных фильтров.
В данной работе была поставлена цель рассмотреть концепцию обучения нескольких сверточных фильтров и выбора лучшего из них с помощью простой модели, состоящей только из слоев свертки. В силу ограничения вычислительной мощности и области изучения, достичь результатов, сравнимых с представленными в работе RAISR, не представлялось возможным, однако использование концепции для простых моделей позволило повысить качество обработанных изображений без дополнительного усложнения архитектуры и применения словарей.
2.2 Двухслойная нейронная сеть
Вторая задача исследования заключалась в построении модели, аналогичной основной части модели RAISR, заключающейся в выборе лучшего фильтра для повышения разрешения изображения из ряда обученных фильтров. Были обучены модели двухслойной нейронной сети, первый слой которых состоял из 10 слоев свертки размера 15х15, а второй состоял из слоя сверток размера 1х1, количество которых совпадало с количеством цветовых каналов обрабатываемого изображения и которые являлись линейной комбинацией фильтров. Для модели, повышающей разрешение изображений с режимом градаций серого, последний слой состоял из 1 сверточного фильтра, а для модели, работающей с изображениями с режимом RGB, из 3.
Рис. 2.1 - Визуализация второй модели, обрабатывающей изображения с режимом градаций серого
Рис. 2.2 - Визуализация второй модели, обрабатывающей изображения с режимом RGB
Была поставлена задача получить разрешение изображений, обработанных моделью данной структуры, по измерениям выбранных метрик выше, чем значения разрешения изображений, полученных при использовании билинейной интерполяции, оператора Лапласа и первых моделей.
Как можно видеть в таблицах 2.1, 2.2, 2.3 и 2.4, значения метрики PSNR при использовании данных моделей оказались выше, чем значения данных метрик при использовании первых представленных моделей, а также бикубической интерполяции и лапласиана вне зависимости от цветового режима обрабатываемых изображений. Значения метрики SSIM после обработки тестовой выборки изображений обученными моделями также оказались значительно выше, чем значения данных метрик при использовании бикубической интерполяции и оператора Лапласа, а также выше, чем первая обученная модель и в эксперименте с моделью, обрабатывающей изображения с цветовым режимом градаций серого, и с цветовым режимом RGB.
Таблица 2.1 - Значения PSNR для первой и второй моделей с цветовым режимом градаций серого
Бикубическая интерполяция |
Бикубическая интерполяция и оператор Лапласа |
Лучшее значение для первых моделей |
Вторая модель |
||
Тестовая выборка |
27.6965971733 |
27.0938131465 |
28.4269068015 |
30.3463316166 |
|
Set5 |
31.3020557059 |
30.4734484203 |
31.1517424438 |
34.7791565302 |
|
Set14 |
27.1266165964 |
26.5595325701 |
27.9961423433 |
29.6455541486 |
Таблица 2.2 - Значения SSIM для первой и второй моделей с цветовым режимом градаций серого
Бикубическая интерполяция |
Бикубическая интерполяция и оператор Лапласа |
Лучшее значение для первых моделей |
Вторая модель |
||
Тестовая выборка |
0.808942521008 |
0.796779933914 |
0.847272451947 |
0.86001802212 |
|
Set5 |
0.891099641769 |
0.876578923455 |
0.917716912616 |
0.931971989827 |
|
Set14 |
0.79595444677 |
0.784164652479 |
0.836169188395 |
0.848642946343 |
Таблица 2.3 - Значения PSNR для первой и второй моделей с цветовым режимом RGB
Бикубическая интерполяция |
Бикубическая интерполяция и оператор Лапласа |
Лучшее значение для первых моделей |
Вторая модель |
||
Тестовая выборка |
27.2078714506 |
26.6480874616 |
28.095785639 |
29.6163484276 |
|
Set5 |
31.0112492522 |
30.2345389499 |
31.1192810736 |
34.2854515657 |
|
Set14 |
26.6066021658 |
26.0811116748 |
27.6178065813 |
28.8782181521 |
Таблица 2.4 - Значения SSIM для первой и второй моделей с цветовым режимом RGB
Бикубическая интерполяция |
Бикубическая интерполяция и оператор Лапласа |
Лучшее значение для первых моделей |
Вторая модель |
||
Тестовая выборка |
0.806364225132 |
0.795693057826 |
0.846613014141 |
0.852194064811 |
|
Set5 |
0.892216134629 |
0.880425167524 |
0.920951092264 |
0.930951279471 |
|
Set14 |
0.792792048263 |
0.782297908131 |
0.834861038556 |
0.839743475729 |
(а) |
(б) |
(в) |
|
SSIM: 1.00 |
SSIM: 0.81 |
SSIM: 0.84 |
|
PSNR: 24.9108 |
PSNR: 29.4836 |
Рис. 2.3 - слева направо: (а) оригинал, (б) изображение, полученное с помощью применения бикубической интерполяции, и (в) изображение, полученное после повышения разрешения второй моделью, обрабатывающей изображения в цветовом режиме градаций серого
(а) |
(б) |
(в) |
|
SSIM: 1.00 |
SSIM: 0.70 |
SSIM: 0.86 |
|
PSNR: 21.2773 |
PSNR: 29.3363 |
Рис. 2.4 - слева направо: (а) оригинал, (б) изображение, полученное с помощью применения бикубической интерполяции, и (в) изображение, полученное после повышения разрешения второй моделью, обрабатывающей изображения в цветовом режиме RGB
2.3 Выводы и результаты по главе
В ходе обучения моделей были получены новые фильтры, которые, как и фильтры, используемые в модели RAISR, оказались частично схожи с лапласианами (см. рис. 2.5-2.16). Важно отметить, что некоторый набор обученных фильтров оказался не похож ни на фильтры оператора Лапласа, ни на фильтры, используемые в модели RAISR. Фильтры модели, обученной на изображениях с цветовым режимом RGB, оказались не похожи на фильтры, полученные при обучении первой модели. У них также нельзя отметить преимущественное использование значений одного из цветовых каналов.
Рис. 2.5 - Фильтры 1-8, полученные после обучения второй модели, обрабатывающей изображения с режимом градаций серого
Рис. 2.6 - Фильтры 9 и 10, полученные после обучения второй модели, обрабатывающей изображения с режимом градаций серого
Рис. 2.7 - Фильтр 1, полученный после обучения второй модели, обрабатывающей изображения с режимом RGB
Рис. 2.8 - Фильтр 2, полученный после обучения второй модели, обрабатывающей изображения с режимом RGB
Рис. 2.9 - Фильтр 3, полученный после обучения второй модели, обрабатывающей изображения с режимом RGB
Рис. 2.10 - Фильтр 4, полученный после обучения второй модели, обрабатывающей изображения с режимом RGB
Рис. 2.11 - Фильтр 5, полученный после обучения второй модели, обрабатывающей изображения с режимом RGB
Рис. 2.12 - Фильтр 6, полученный после обучения второй модели, обрабатывающей изображения с режимом RGB
Рис. 2.13 - Фильтр 7, полученный после обучения второй модели, обрабатывающей изображения с режимом RGB
Рис. 2.14 - Фильтр 8, полученный после обучения второй модели, обрабатывающей изображения с режимом RGB
Рис. 2.15 - Фильтр 9, полученный после обучения второй модели, обрабатывающей изображения с режимом RGB
Рис. 2.16 - Фильтр 10, полученный после обучения второй модели, обрабатывающей изображения с режимом RGB
Заключение
интерполяция сверточный фильтр сеть
В данной работе было рассмотрено применение простых моделей, использующих для повышения разрешения изображения сверточные фильтры. Как и в большинстве работ в данной области, для контроля времени и качества проведения экспериментов, были использованы нейронные сети. Целью работы являлось обучение моделей, по архитектуре и сложности аналогичных простым методам повышения разрешения изображения, и изучение полученных сверточных фильтров. Качество изображений, обработанных с помощью применения обученных моделей, для измерения которого использовались метрики PSNR и SSIM, оказалось выше, чем значения, полученные с применением оператора Лапласа и бикубической интерполяции.
Помимо развития простых методов повышения разрешения изображения, которые быстро работают и просты в реализации и структуре, при наличии необходимых вычислительных мощностей исследование данной темы можно продолжить, обучая более сложные модели, например, похожие по структуре на модель RAISR.
Выпускная квалификационная работа была выполнена на языке программирования Python с применением интерактивной среды для программирования IPython Notebook. Для создания и обучения моделей, обработки изображений и сохранения полученных результатов, были использованы библиотеки IPython, SciPy, NumPy, Keras, Matplotlib, Python Imaging Library, Scikit-Learn, Scikit-Image, h5py, os, math.
Библиографический список
1. Park S. C., Park M. K., Kang M. G. Super-resolution image reconstruction: a technical overview //IEEE signal processing magazine. - 2003. - Т. 20. - №. 3. - С. 21-36.
2. Gonzalez R. C., Woods R. E. Digital image processing. - 2012.
3. Dong C. et al. Image super-resolution using deep convolutional networks //IEEE transactions on pattern analysis and machine intelligence. - 2016. - Т. 38. - №. 2. - С. 295-307.
4. Jianchao Y. et al. Image super-resolution as sparse representation of raw image patches //Proc. IEEE Conf. on Computer Vision and Pattern Recognition. - 2008. - С. 1-8.
5. Ledig C. et al. Photo-realistic single image super-resolution using a generative adversarial network //arXiv preprint. - 2016.
6. Romano Y., Isidoro J., Milanfar P. RAISR: rapid and accurate image super resolution //IEEE Transactions on Computational Imaging. - 2017. - Т. 3. - №. 1. - С. 110-125.
7. Kingma D. P., Ba J. Adam: A method for stochastic optimization //arXiv preprint arXiv:1412.6980. - 2014.
8. He K. et al. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification //Proceedings of the IEEE international conference on computer vision. - 2015. - С. 1026-1034.
Приложения
Дополнительная информация по экспериментам.
Эпоха - один прямой и один обратный проход по всем обучающим примерам.
Батч (batch) - количество примеров обучения для одной итерации прямого и обратного прохождений.
При обучении моделей первого типа, состоящих из одного слоя сверточной нейронной сети, были использованы батч размера 15 и 2500 эпох. При обучении моделей второго типа, состоящих из двух слоев сверточной нейронной сети, были использованы батч размера 15 и 500 эпох.
Рис. 1 - График изменения пикового отношения сигнала к шуму первой модели, обрабатывающей изображения с цветовым режимом градаций серого
Рис. 2 - Визуализация модели для первой задачи, обрабатывающей изображения с цветовым режимом градаций серого
Рис. 3 - График изменения пикового отношения сигнала к шуму первой модели, обрабатывающей изображения с цветовым режимом RGB
Рис. 4 - Визуализация модели для первой задачи, обрабатывающей изображения с цветовым режимом RGB
Рис. 5 - График изменения пикового отношения сигнала к шуму второй модели, обрабатывающей изображения с цветовым режимом градаций серого
Рис. 6 - Визуализация модели для второй задачи, обрабатывающей изображения с цветовым режимом градаций серого
Рис. 7 - График изменения пикового отношения сигнала к шуму второй модели, обрабатывающей изображения с цветовым режимом RGB
Рис. 8 - Визуализация модели для второй задачи, обрабатывающей изображения с цветовым режимом RGB
Размещено на Allbest.ru
...Подобные документы
Эффективность применения объектного подхода для программных систем. Детальное проектирование и реализация системы, реализующей процессы создания и взаимодействия объектов. Распознавание компьютером печатных букв с помощью многослойной нейронной сети.
курсовая работа [38,0 K], добавлен 09.03.2009Программная реализация статической нейронной сети Хемминга, распознающей символы текста. Описание реализации алгоритма. Реализация и обучение сети, входные символы. Локализация и масштабирование изображения, его искажение. Алгоритм распознавания текста.
контрольная работа [102,3 K], добавлен 29.06.2010Определение понятий видеопиксела, разрешения изображения и разрешения монитора. Шаг точки (зерно) и размер пятна от луча. Сравнение разрешения изображения и шага точки. Характеристика цветовых моделей: модель RGB, вычитающая модель и модель HSB.
презентация [78,2 K], добавлен 06.01.2014Формирование растровых изображений. Изменение их разрешения путем интерполяции. Понятие глубины цвета. Редактирование рисунков с помощью масок, каналов и фильтров. Характеристика инструментов выделения, ретуширования и работы со слоями в Adobe Photoshop.
курсовая работа [294,1 K], добавлен 18.05.2016Обзор программных продуктов для анализа изображений: ABBYY FineReader и OCR CuneiForm. Понятие и виды нейронных сетей. Алгоритм обучения персептрона. Результаты исследований и описание интерфейса программы. Расчет себестоимости программного обеспечения.
дипломная работа [590,7 K], добавлен 17.08.2011Зарождение и развитие криптографии. Симметричное шифрование и его особенности. Нейронная сеть и области ее использования, основные составляющие. Математическая модель нейронной сети на базе базисно-радиальных функций. Алгоритм симметричного шифрования.
курсовая работа [809,4 K], добавлен 30.09.2016Простейшая сеть, состоящая из группы нейронов, образующих слой. Свойства нейрокомпьютеров (компьютеров на основе нейронных сетей), привлекательных с точки зрения их практического использования. Модели нейронных сетей. Персептрон и сеть Кохонена.
реферат [162,9 K], добавлен 30.09.2013Механизм работы нервной системы и мозга человека. Схема биологического нейрона и его математическая модель. Принцип работы искусственной нейронной сети, этапы ее построения и обучения. Применение нейронных сетей в интеллектуальных системах управления.
презентация [98,6 K], добавлен 16.10.2013Прогнозирование на фондовом рынке с помощью нейронных сетей. Описание типа нейронной сети. Определение входных данных и их обработка. Архитектура нейронной сети. Точность результата. Моделирование торговли. Нейронная сеть прямого распространения сигнала.
дипломная работа [2,7 M], добавлен 18.02.2017Обработка изображений на современных вычислительных устройствах. Устройство и представление различных форматов изображений. Исследование алгоритмов обработки изображений на базе различных архитектур. Сжатие изображений на основе сверточных нейросетей.
дипломная работа [6,1 M], добавлен 03.06.2022Применение методов искусственного интеллекта при определении цвета глаз будущего ребенка. Сущность нейросетевых технологий, обучение нейросимуляторов. Зависимость погрешности обучения от погрешности обобщения. Оценка значимости входных параметров.
презентация [287,2 K], добавлен 14.08.2013Проблема гидроакустической классификации целей как актуальная проблема современной гидроакустики. Применение нейросетевых алгоритмов и отдельных парадигм для решения научно-технических задач. Выбор структуры нейронной сети для распознавания изображений.
реферат [284,2 K], добавлен 04.05.2012К ретуши относятся операции повышения резкости и размытия. Резкость делает изображение выразительным, так как к контрастным, резким деталям человеческий глаз более внимателен. Использование для увеличения резкости изображения фильтров группы "Резкость".
контрольная работа [71,7 K], добавлен 12.09.2010Понятие и свойства искусственных нейронных сетей, их функциональное сходство с человеческим мозгом, принцип их работы, области использования. Экспертная система и надежность нейронных сетей. Модель искусственного нейрона с активационной функцией.
реферат [158,2 K], добавлен 16.03.2011Основные способы представления изображений. Обработка цифровых и отсканированных фотоснимков, создание многослойного изображения, фотомонтаж с помощью графического редактора Adobe Photoshop. Вид рабочего окна программы, палитры, фильтры, их применение.
курсовая работа [2,5 M], добавлен 22.09.2010Характеристика моделей обучения. Общие сведения о нейроне. Искусственные нейронные сети, персептрон. Проблема XOR и пути ее решения. Нейронные сети обратного распространения. Подготовка входных и выходных данных. Нейронные сети Хопфилда и Хэмминга.
контрольная работа [1,4 M], добавлен 28.01.2011История создания и основные направления в моделировании искусственного интеллекта. Проблемы обучения зрительному восприятию и распознаванию. Разработка элементов интеллекта роботов. Исследования в области нейронных сетей. Принцип обратной связи Винера.
реферат [45,1 K], добавлен 20.11.2009Сущность понятия "локальная сеть". Совместное использование файла с помощью сети. Простота распространения приложений между служащими офиса как одно из крупных достижений локальных сетей. Основные преимущества электронной почты перед телефонной связью.
контрольная работа [14,0 K], добавлен 14.11.2010Обзор и анализ распространенных искусственных нейронных сетей. Функциональное назначение слоев сети, алгоритмы обучения. Описание функциональных возможностей разработанной программной системы. Анализ исследовательской эксплуатации и возможных применений.
дипломная работа [1,3 M], добавлен 19.05.2011Сущность данных и информации. Особенности представления знаний внутри ИС. Изучение моделей представления знаний: продукционная, логическая, сетевая, формальные грамматики, фреймовые модели, комбинаторные, ленемы. Нейронные сети, генетические алгоритмы.
реферат [203,3 K], добавлен 19.06.2010