Главная Коллекция "Revolution" Химия Распознавание квадруплексов методами глубинного обучения в геноме мыши

Распознавание квадруплексов методами глубинного обучения в геноме мыши

Применение генеративно-состязательной сети для генерации квадруплексов в геноме мыши с целью использования сгенерированных данных в качестве тренировочного набора для улучшения качества различных моделей. Анализ генеративно-состязательных сетей.

Рубрика	Химия
Вид	дипломная работа
Язык	русский
Дата добавления	14.07.2020
Размер файла	1,0 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Федеральное государственное автономное образовательное учреждение высшего образования

"Национальный исследовательский университет

"Высшая школа экономики"

Факультет компьютерных наук

Основная образовательная программа

Прикладная математика и информатика

Выпускная квалификационная работа

на тему

Распознавание квадруплексов методами глубинного обучения в геноме мыши

Выполнил студент группы 163, 4 курса,

Бурданова Софья Павловна

Руководитель ВКР:

доцент, Попцова Мария Сергеевна

Оглавление

Введение

Глава 1. Предобработка данных

Глава 2. Аннотирование генома мыши на существующей модели

Глава 3. Построение генеративно-состязательной модели

Глава 4. Улучшение генеративно-состязательной модели

Глава 5. Результаты

Заключение

Список литературы

Приложения

Аннотации

G-квадруплексы (G4) представляют собой последовательности нуклеиновых кислот, обогащенные гуанином и способные образовывать четырехцепочечные структуры. Квадруплексы активно изучаются, но точные закономерности их образования в настоящее время неизвестны, поэтому задача распознавания квадруплексов методами глубинного обучения играет немаловажную роль в исследованиях данного явления. Решение данной задачи методами машинного обучения осложняется несбалансированностью выборки. Данная работа посвящена применению генеративно-состязательной сети для генерации квадруплексов в геноме мыши с целью дальнейшего использования сгенерированных данных в качестве тренировочного набора для улучшения качества различных моделей. В работе были продемонстрированы результаты четырех вариаций генеративно-состязательных сетей (простой GAN, WGAN, WGAN-GP и LSGAN) на шести комбинациях сверточных сетей из генератора и дискриминатора. В результате удалось построить такую сеть, которая генерирует квадруплексы, которые потом распознаются моделью CNN c максимальным ACCURACY 0.96. Наилучший и наиболее стабильный результат из всех реализованных архитектур для данной задачи показала GEN2+DISC1 с WGAN-GP. Данная работа представляет собой одно из пионерских исследований в области применения генеративно-состязательных сетей в задачах геномики и, в частности, в задачах распознавания квадруплексов.

G-quadruplexes (G4) are nucleic acid sequences enriched with guanine and capable to form four-chain structures. Quadruplexes are actively studied, but the definite laws of their formation are still unknown, therefore, the problem of G-quadruplexes identification by deep learning methods plays a significant role in this phenomenon research. The solution of this problem by machine learning methods is complicated by the imbalance of the sample. The subject of this work is to generate quadruplexes with Generative Adversarial Network and add the generated data to a training set in order to improve the quality of various machine learning models for quadruplex recognition. This research demonstrates the results of four variations of Generative Adversarial Network (simple GAN, WGAN, WGAN-GP and LSGAN) on six combinations of convolutional networks from a generator and discriminator. CNN with a maximum ACCURACY of 0.96. The best and the most stable result of all the implemented architectures for this problem was shown by GEN2 + DISC1 with WGAN-GP. This research is one of the pioneering studies in the application area of Generative Adversarial Network networks in genomics problems and particulary in quadruplex recognition problems. геном мышь состязательный

Ключевые слова

Глубинное обучение, G-квадруплексы, генеративно-состязательная сеть, распознавание G-квадруплексов, генерация вторичной структуры ДНК

Введение

Описание предметной области

В этой работе мы рассмотрим такую вторичную структуру ДНК, как G-квадруплексы. G-квадруплексы представляют собой четырехспиральные G-богатые структуры. Центральная часть G-квадруплекса содержит G-тетрады, состоящие из четырех гуаниновых остатков из разных G-путей и связанные с системой водородных связей Хугстина с небольшим одновалентным катионом в центре [1].

Рис 1.1.1. Структура G-квадруплекса

С одной стороны, они могут выполнять регуляторные функции в клетке, блокировать нежелательное удлинение теломерной ДНК, служить мишенями для противоопухолевых препаратов. С другой стороны, образование

G-квадруплексов вызывает нестабильность генома, связанную с онкологическими заболеваниями и неврологическими расстройствами [1].

Однако, не всегда получается точно определить G-квадруплекс в геноме, из-за чего могут возникать трудности в дальнейшем распознавании квадруплексов методами глубинного обучения из-за несбалансированности выборки, поэтому появилась необходимость в генерации этой вторичной структуры ДНК.

Межгенные области, где чаще всего находятся квадруплексы, очень неконсервативны, и состав генома в этих областях может иметь свои особенности. Поэтому исследования в геномике проводятся не только на человеке, но и еще на других организмах. Нужно проверять, как модели, натренированные на геноме человека, будут предсказывать на геноме мыши, и наоборот. Потому в данной работе объектом исследования является геном мыши.

Актуальность работы

Эта проблема актуальна, поскольку на настоящий момент не было проведено экспериментов в генерации квадруплексов, что позволило бы генерировать данные и использовать их для обучения разных алгоритмов машинного обучения, особенно там, где мало данных, как, например, в геноме Saccharomyces [2].

Цель

Целью данной работы является генерация новых G-квадруплексов с использованием алгоритма машинного обучения GAN для более успешного прогнозирования формирования вторичной структуры ДНК методами глубинного обучения.

Задачи

Для достижения цели были поставлены следующие задачи:

1. Воспроизвести результаты существующей модели сверточной нейронной сети для распознавания G-квадруплекса в геноме мыши

2. Построить GAN для генерации G-квадруплексов

3. Воспроизвести результаты сверточной модели нейронной сети на сгенерированных данных

4. Сравнить качество моделей, обученных на исходных данных и на сгенерированных

2. Обзор литературы

GAN - архитектура, которая была впервые предложена в 2014 году и сейчас активно используется в различных сферах для генерирования новых данных. Генетика не является исключением, и многие исследователи уже стараются применить новый алгоритм, чтобы сгенерировать такие данные, как геномы, белки или лекарства.

Например, существует алгоритм генерации последовательностей ДНК с использование WGAN [3], вариация GANа, который оптимизирует расстояние между двумя распределениями сгенерированных и реальных данных. При таком подходе генератор сначала подготовлен для получения последовательности ДНК, а затем дискриминатор заменяется нейронной сетью (анализатор), которая предсказывает связана ли данная последовательность ДНК с конкретным белком. Таким образом, авторы данного метода модифицировали входной шум, поступающий в генератор так, чтобы получать желаемые последовательности ДНК. Однако, это работает только с дифференцируемыми анализаторами. Авторы считают, что результаты, полученные данным алгоритмом, открывают двери для применения генеративных моделей в исследованиях геномики.

Есть работа, в которой продемонстрирован алгоритм Feedback GAN (FBGAN), генерирующий последовательности белков для пептидов длиной до 50 аминокислот с использованием WGAN-GP, и также предложен новый механизм feedback-loop для получения желаемых свойств в последовательностях ДНК [4]. Преимущества данной архитектуры в том, что анализатор не должен быть дифференцируемым и находится внутри GANa, то есть те данные, которые одобрит анализатор, снова отправляются в GAN (рис. 2.1). Набор метрик демонстрирует, что белки, сгенерированные GANом, имеют желательные биофизические свойства. Архитектура FBGAN может также использоваться для оптимизации сгенерированных GANом данных для обеспечения полезных свойств за пределами геномики.

Рис 2.1. a) Архитектура GAN из работы, где описывается алгоритм FBGAN b) Анализатор, который оценивает сгенерированные данные c) Архитектура GAN, в которой еще находится анализатор, т.е. генератор генерирует данные, передает его анализатору, который проверяет их, и хорошие сгенерированные данные передает в дискриминатор

После изучения двух единственных работ по генерации данных в геномике, было принято решения опробовать простой GAN, WGAN и WGAN-GP, которые используются в вышеописанных работах, а также дополнительно обучить еще LSGAN [5], т.к. были проведены эксперименты с ним, где модель сгенерировала изображения из датасетов LSUN и HWDB1 качеством выше, чем классический GAN.

Глава 1. Предобработка данных

Данные о квадруплексах представляют собой результаты эксперимента G4-seq [2], которые можно скачать по следующей ссылке: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM3003548. Данные хранятся в двух bed-файлах, один с результатами положительного стренда, другой - отрицательного, и представляют из себя таблицу, изображенную на рис. 3.1.1. Первый столбец - хромосома, в которой найден квадруплекс, второй столбец - начало участка квадруплекса, третий столбец - конец участка.

Рис. 3.1.1. Фрагмент bed-файла для положительного стренда, где первый столбец - хромосома, в которой найден квадруплекс, второй столбец - начало участка квадруплекса, третий столбец - конец участка

Размер выборки положительного и отрицательного стрендов соответственно равны 398623 и 873010. Распределение длин представлено на рис. 3.1.2.

Рис. 3.1.2. Распределение длин участков квадруплексов для положительного и отрицательного стрендов соответственно

Дальше необходимо было участки квадруплексов наложить на геном. Геном мыши mm10 доступен по следующей ссылке и является fasta-файлом https://www.ncbi.nlm.nih.gov/assembly/GCF_000001635.26/#/def. Выглядит это следующим образом, где >chr10 - это хромосома, в которой находится квадруплекс, 3103580-3104080 - диапазон участка и сам участок из нуклеотидов:

>chr10:3103580-3104080

gaactcactttgtagaccaggctggcctcaaactcagaaatccacctgc…

Так как задача распознавания квадруплексов является задачей бинарной классификацией, то есть отвечает на вопрос "Это участок ДНК, в котором находится квадруплекс?", то мы имеем два класса - положительный (ответ - да) и отрицательный (ответ - нет).

Алгоритм обработки данных и получения положительного класса выглядит следующим образом:

1. Берем bed-файл, где положительный стренд

2. Для каждого участка добавляем с двух сторон по 250 нуклеотидов с помощью команды slop из библиотеки bedtools

3. Центрируем каждый участок с длиной равной 500, скриптом, написанным на awk

4. Вытаскиваем сами последовательности квадруплексов из генома в формате fasta с помощью команды getfasta

5. Повторяем 1-3 пункты для отрицательного стренда с добавлением столбца, указывающий на отрицательный стренд ("reverse"), так как для этого случая нужно поменять направление генома

6. Повторяем пункт 4 с добавлением параметры -s (который учитывает столбец с указанием стренда)

Чтобы получить отрицательный класс, можно воспользоваться командой random из bedtools, которая позволяет сгенерировать в формате bed-файла участки ДНК определенной длины и в определенном количестве. Так как выборка положительного класса в совокупности положительного и отрицательного стрендов состоит из 1200000 квадруплексов, то было сгенерировано 1500000 участков ДНК и затем с помощью команды subtract выкинуты участки, пересекающиеся с квадруплексами. Итого получилось 1200000 положительного класса и 1300000 отрицательного. Для дальнейшей работы были временно использованы 30000 квадруплексов положительного класса и 30000 отрицательного.

Далее, каждый нуклеотид последовательности был закодирован как one-hot вектор, т.е. , , и . То есть каждая последовательность в дальнейшем для обучения преобразовывалась в матрицу из нулей и единиц размера , или короче, .

Глава 2. Аннотирование генома мыши на существующей модели

Для тестирования сгенерированных квадруплексов была взята сверточная модель с архитектурой (далее будем называть ее как DISC3), приведенной на рис. 3.2.1. [6], которая на выходе возвращает вероятность формирования квадруплекса в последовательности. Данная модель показала хорошие результаты на геноме человека и потому была выбрана в качестве модели, на которой будут тестироваться сгенерированные данные на геноме мыши.

Рис. 3.2.1. Архитектура сверточной сети для распознавания участков ДНК с квадруплексами

При threshold 0.5 ROC-AUC получился равным 0.81 и 0.98 на квадруплексах человека и квадруплексах мыши соотвественно.

Таблица 3.2.1. Матрица ошибок на мышах

Predicted: NO

Preticted: YES

Actual: NO

56795

3218

Actual: YES

1902

58085

Модель показала хорошие результаты для обоих организмов, поэтому в дальнейшей в работе используем ее для тестирования сгенерированных данных.

Глава 3. Построение генеративно-состязательной модели

Генеративно-состязательная сеть (GAN) - архитектура, состоящая одновременно из двух нейронных сетей [7]:

· Генератора, который учится генерировать реальные данные. Сгенерированные экземпляры из тренировочного множества становятся плохими данными для дискриминатора.

· Дискриминатора, который учится отличать фальшивые данные генератора от реальных. Дискриминатор наказывает генератор за получение неправдоподобных результатов.

Если генератор обучается хорошо, то дискриминатору становится сложнее различить реальные данные от сгенерированных. Он начинает классифицировать фальшивые данные как реальные, из-за чего его точность падает.

Рис. 3.3.1. Схема генеративно-состязательной сети

Дискриминатор в GAN - это просто классификатор. Он пытается отличить реальные данные от экземпляров, созданных генератором. Он может использовать любую сетевую архитектуру, соответствующую типу данных, которые он классифицирует.

Функция потерь дискриминатора равна:

За основу для дискриминатора были использованы модель CNN_std (далее DISC1), которая использовалась для предсказаний мутаций в CRISPR-Cas9 [8] и была улучшена до архитектуры, представленной на рис. 3.3.2, и модель (далее DISC2), предложенная в статье про генерацию участков ДНК (рис. 3.3.3), только с добавлением еще нормализации по мини-батчам. На выходе нейронные сети возвращают число от 0 до 1.

Рис. 3.3.2. Архитектура сверточной нейронной сети, которая играет роль дискриминатора, основанная на CNN_std

Рис. 3.3.3. На первой схеме представлена в общем иллюстрация архитектуры, которая классифицирует участки ДНК в GAN. На второй схеме представлена уже архитектура, основанная на первой, которая будет использоваться для данной работы.

По сути, обе архитектуры - это последовательности из слоев свертки, функций активации, нормализации по минибатчам и субдискретизации.

Генератор - это сверточная нейронная сетью со слоем развертки (deconvolution layer). Генератор принимает случайный шум в качестве входа. Затем он преобразует этот шум в значимый вывод. Вводя шум, мы можем заставить GAN производить широкий спектр данных, выбирая их из разных мест в целевом распределении.

По мере того, как генератор улучшается с обучением, производительность дискриминатора ухудшается, потому что дискриминатор не может легко определить разницу между реальным и фальшивыми данными. Если генератор успешно работает, то дискриминатор имеет точность 50%. По сути, дискриминатор подбрасывает монетку, чтобы сделать свой прогноз.

Функция потерь генератора выглядит следующим образом:

В данной работе также протестированы две архитектуры генератора, первая (далее GEN1), похожая на DISC1, но слои задаются с помощью транспонированной свертки, вторая (далее GEN2), позаимствованная так же, как и DISC2, из работы про генерацию участков ДНК, но с добавлением нормализации по мини-батчам.

Рис 3.3.4. Архитектура сверточной нейронной сети, которая играет роль генератора (GEN1)

Рис 3.3.5. Архитектура сверточной нейронной сети, которая играет роль генератора (GEN2)

Для обучения данные были поделены на мини-батчи размером 128 штук в одном блоке, эпох было задано 300 штук, а размерность шума - 40. Для первого эксперимента была выбрана модель GEN1+DISC1. Как можем видеть на рис. 3.3.6, функции потерь у генератора и дискриминатора стремятся к нулю. Для генератора в классическом GAN это возможный худший вариант, а для дискриминатора - лучший, то есть график говорит о том, что дискриминатор выигрывает. Однако, из 128 сгенерированных данных обученный раннее классификатор определил 13 участков ДНК как квадруплексы, то есть несмотря на то, что дискриминатор выигрывает, генератор все равно находит какую-то полезную информацию.

Рис. 3.3.6. График функций потерь генератора и дискриминатора

Пример последнего ("лучшего") сгенерированного квадруплекса:

tcgatgatcgaccccactcggagcccttcgacgtagaggcctatgatgaggacggtgccttaggcgatgctttatgccacgtcgtataagtagctgtcggggactcctttgcagttgacgccctatccttgtgctcctccctattcgatctctcctagcacgttgacttttgcgcactctgcgtgcgggttgacccctgcaatcaagtcgcccaggtcgacgaaggtgtttttggtgaatcggctgacgattgggcctgtgtcttcccctttgacgaatgagtcctattagaccacttcgtctaggttgatgacgtataccactatgactattgagtctatggcgcccgcgtcgttccatcagatggtgcattccgtggcgtctagggcgctcttgttgcttccgaagcgcttggggccctcgtcgacggcggcgactgcgaggaagaggacgaggcctttgtgtcagtcgctcgtggcttctacgtcgtctgcgtcggg

Глава 4. Улучшение генеративно-состязательной модели

У простой GAN-модели есть свои недостатки, например:

· Несходимость: параметры модели не сходятся, то есть веса уходят в бесконечность

· Генератор выдает ограниченное количество разных образцов, мало разнообразия

· Дискриминатор становится слишком сильным, из-за чего генератор плохо будет обучаться

Одно из решений улучшения GANа - это использовать иные функции потерь.

Попробуем применить такие вариации GANа, которые уже были использованы для генерации ДНК и белков, и еще какой-нибудь дополнительно: WGAN (Wasserstein GAN) [9], WGAN-GP (Wasserstein GAN with gradient penalty) [10] и LSGAN (Least Squares GAN).

Wasserstein Generative Adversarial Network

Функция потерь во WGAN для дискриминатора выражается следующим образом:

Дискриминатор пытается максимизировать эту функцию. Другими словами, он пытается максимизировать разницу между выходными данными в реальных экземплярах и выходными данными в поддельных экземплярах. (как пишут многие авторы статей про WGAN, здесь не дискриминатор D, а вместо него "критик" f, который на выход выдает не вероятность, а сырое число - то есть в архитектуре будет отсутствовать функция активации Sigmoid)

Функция потерь генератора следующая:

Генератор пытается максимизировать эту функцию. Другими словами, он пытается максимизировать вывод дискриминатора для его поддельных экземпляров.

Рис 3.4.4.1. Различие между GAN и WGAN

Wasserstein Generative Adversarial Network with gradient penalty

WGAN-GP - это Wasserstein GAN с регуляризатором gradient penalty. WGAN-GP штрафует модель, если норма градиента отходит от ее целевого значения на 1.

Функция потерь для дискриминатора (здесь так же, как и для WGAN, мы считаем, что у нас не дискриминатор, а "критик") будет выглядеть следующим образом:

, где

Функция потерь для генератора:

Least squares Generative Adversarial Network

Данный GAN был разработан, что сделать генератору лучше. В действительности LSGAN хочет, чтобы целевая метка дискриминатора для реальных данных была равна 1, для сгенерированных данных - 0. А для генератора, чтобы целевая метка для сгенерированных данных была равна 1.

Функции потерь для данной генеративной сети будут следующие:

Глава 5. Результаты

Работа со всеми моделями была проведена следующая: были скомбинированы архитектуры генератора и дискриминатора и для каждого GAN обучены на 300 итерациях. Затем мы взяли последние 128 сгенерированных квадруплекса и прогнали в качестве тестовой выборки через классификатор, обученный специально для оценивания сгенерированных ДНК. Далее посмотрели, ко скольким из этих 128 квадруплексов классификатор присвоил положительный класс (то есть посчитали Accuracy, долю правильных ответов). Так как результаты получаются все время разные, каждую модель пришлось обучать по 2-4 раза. Лучшие результаты для каждой модели и каждого GANа представлены в таблице 3.4.1, где первый столбец - комбинация модели, остальные - лучшая доля сгенерированных квадруплексов, на которые классификатор дал положительный ответ для каждого GANa.

Таблица 3.5.1. Валидация генератора.

Доля сгенерированных квадруплексов, которые классификатор отметил как положительный класс.

Как видно из таблицы, модели GEN1+DISC3 и GEN1+DISC2 выдали плохие результаты. GEN1+DIC1 и GEN2+DISC3 лучше отработали, но все равно недостаточно. Лучшие результаты выдали модели GEN2+DISC2 и GEN2+DISC1. Если оценивать GAN, то стабильнее всего отработали WGAN и WGAN-GP. Последним этапом исследования было обучить лучшие модели на 1000 итерациях и посмотреть, какая выдаст лучший результат.

После обучения модели около 12 часов, получились следующие результаты:

Таблица 3.5.2. Результаты двух лучших моделей на 1000 итерациях

В принципе 300 эпох достаточно, чтобы можно было оценить, какая модель работает лучше. Посмотрим на полную таблицу с результатами (Таблица 3.4.3). GEN2+DISC2 и GEN2+DISC1 оба работают хорошо, но замечается явная стабильность GEN2+DISC1 с WGAN-GP, поэтому мы отдали предпочтение ему.

Таблица 3.5.3. Все результаты на всех моделях и GAN

В приложении 1-2 представлены графики функций потерь на 300 итерациях для GEN2+DISC2 и GEN2+DISC1, а в приложении 3 примеры сгенерированных квадруплексов архитектурой GEN2+DISC1 с WGAB-GP. Код проделанной работы находится по адресу: https://github.com/sonchaboo/GAN_quadruplex

Заключение

В данной работе были достигнуты поставленные цели и задачи. Было опробовано несколько архитектур генератора и дискриминатора, лучший же результат показали модели GEN2+DISC2 и GEN2+DISC1. Также были протестированы разные вариации функции потерь в GAN, и самые высокие показатели и более стабильные показала архитектура GEN2+DISC1 с WGAN-GP. Однако, модель демонстрирует не лучшие результаты и намечены пути для дальнейшего улучшения метода, например, обучить модель на всех данных и попробовать разные архитектуры для генератора и дискриминатора. Как еще один из вариантов улучшения - добавить в GAN анализатор, который будет во время обучения проверять сгенерированные данные и выдавать дискриминатору только хорошо сгенерированные.

Список литературы

1. Н.Г. Долинная, А.М. Оглоблина, М.Г. Якубовская. Структура, свойства и биологическое значение G-квадруплексов ДНК и РНК. Взгляд через 50 лет после их открытия [Текст] // Успехи биологической химии. 2016. Т. 56. С. 53-154.

2. Giovanni Marsico, Vicki S Chambers, Aleksandr B Sahakyan, Patrick McCauley, Jonathan M Boutell, Marco Di Antonio, Shankar Balasubramanian. Whole genome experimental maps of DNA G-quadruplexes in multiple species. Nucleic Acids Research. Vol. 47. Issue 8. 07 May 2019. Pages 3862-3874.

3. Nathan Killoran, Andrew Delong, David Duvenaud, Leo J. Lee, Brendan J. Frey. Generating and designing DNA with deep generative models. arXiv:1712.06148v1 [cs.LG] 17 Dec 2017.

4. Anvita Gupta, James Zou. Feedback GAN (FBGAN) for DNA: a Novel Feedback-Loop Architecture for Optimizing Protein Functions. arXiv:1804.01694v1 [q-bio.GN] 5 Apr 2018

5. Xudong Mao, Qing Li, Haoran Xie, Raymond Y.K. Lau, Zhen Wang, Stephen Paul Smolley. Least Squares Generative Adversarial Networks. arXiv:1611.04076v3 [cs.CV] 5 Apr 2017.

6. П.В. Латышев. Аннотация генома функциональными элементами методами обучения с учителем". Россия. Москва. Национальный исследовательский университет "Высшая школа экономики". 2019.

7. Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio. Generative Adversarial Networks. arXiv:1406.2661v1 [stat.ML] 10 Jun 2014.

8. Jiecong Lin, Ka-Chun Wong. Off-target predictions in CRISPR-Cas9 gene editing using deep learning. Bioinformatics. 34. 2018. i656-i663 doi: 10.1093/bioinformatics/bty554 ECCB 2018.

9. Martin Arjovsky, Soumith Chintala, Lйon Bottou. Wasserstein GAN. arXiv:1701.07875v3 [stat.ML] 6 Dec 2017.

10. Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, Vincent Dumoulin, Aaron Courville. Improved Training of Wasserstein GANs. arXiv:1704.00028v3 [cs.LG] 25 Dec 2017.

11. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Deep Residual Learning for Image Recognition. arXiv:1512.03385v1 [cs.CV] 10 Dec 2015.

Приложения

Приложение 1.

Графики функции потерь архитектуры GEN2+DISC2 на GAN, WGAN, WGAN-GP и LSGAN соответственно на 300 итерациях

Рис. 6.1. График функции потерь GAN в GEN2+DISC2 на 300 итерация

Рис. 6.2. График функции потерь WGAN в GEN2+DISC2 на 300 итерация

Графики функции потерь архитектуры GEN2+DISC2

на GAN, WGAN, WGAN-GP и LSGAN соответственно на 300 итерациях

Рис. 6.3. График функции потерь WGAN-GP в GEN2+DISC2 на 300 итерация

Рис. 6.4. График функции потерь LSGAN в GEN2+DISC2 на 300 итерация

Приложение 2.

Графики функции потерь архитектуры GEN2+DISC1 на GAN, WGAN, WGAN-GP и LSGAN соответственно на 300 итерациях

Рис. 6.5. График функции потерь GAN в GEN2+DISC1 на 300 итерация

Рис. 6.6. График функции потерь WGAN в GEN2+DISC1 на 300 итерация

Графики функции потерь архитектуры GEN2+DISC1 на GAN, WGAN, WGAN-GP и LSGAN соответственно на 300 итерациях

Рис. 6.7. График функции потерь WGAN-GP в GEN2+DISC1 на 300 итерация

Рис. 6.5. График функции потерь LSGAN в GEN2+DISC1 на 300 итерация

Приложение 3.

Примеры сгенерированных данных

архитектурой GEN2+DISC1 с WGAN-GP

ttgagtgtgcatacggtgagtacagtgtgtagtgtgaatgctgggcgtaaggtgtggagggtgaatagtgagcggacgatctggaggatgcgtactctgaagaagctgtggagtgagaggtcggagaagaaggagtgttgtgtgagtacttggcttacggtgtagacgctgcgtagtgggtagacagagtttagtaggcattctgtgaagaagtactctactaagagttttgagcagacggagtagcgtgtgattacggggtttaggatgtttagtgtgactagggagagtactaagaatagtgagcggtcggtgaagacagagtggagtgtgaatactgggaagacggagtggagtgggccttcgtagattagtgtgtgtagtaagaatactgtgagtacagagcggtctgagcgtacgtaggatactgtgattgctgaggcttctgagaagccgatgtgtactgggaggacggagaatagggagcgggcggaggagaa

gaaacggaaccggagggctcggacacctggtcgctgaaacccggatcctgggaattggggaactggaccgggacccggaaccgggcggacctgggacattgaaaccggaacttgaccggacttaacgggaactttaaaccggaacccgcctaacccactgggcccgaccggaattttaaaactctgagaacccccgggaaaccggtggacccggagggtgaaacgggtgggcccctgggaaccccccggaacccgcccccccccggaacctgcaccccgacccctgaaactggaaaaatcctttgaaattcccggaaaccgggtgatactccttggaatttaacttggcccggacctgactgaaccggcccctaaccccccctggccgggcgcggaaaatttaacgggtttcccccccgggaacggaccaaacgggaccggaaccgggaccctgggcccggaaaacggaaccggccccgggggctggaacctaaccggtc

gtagctcttcttgtatttgtcttctatccattctcactcgatctatatcccataacatgccacccctattaaaacatgtcatgcctgtctcgtaacagcatatatatcactatctctctcccctgtataggtacctctctctttgcatgttttctgtagttcccaccgtctctatctctatcacccccctccctcaccacacccacacacctgtaccatctacctctccatataacacctctcaaggcacatcactctaacccccccctccctcccctaccctatccataaccccatcccgtaccccatacctggacactatccacatccccagcctcccgtctctctgtactctctacccttttgtctttgtataactctccctgtacccctcccccctcgtatcttttgttacttgtcttctttctttttacctctcactataaccatctatataacagtaggtatatctcctctagctatcttgtcatacactatac

gggggaggatatgcagaagggggagcagtaacgttttcaacccagtgaaggtcctcgatgtgtggtgagcacagactggagagctctcattggggggaaagaggggggattcagagccctcccgcattaccccactgcctttccccgtggaggacgaagtgggagggcgagaaggtagtaatatactttgccccccaatgctaagagggtgctggaaagcaccctttcagtggccagcagataagactggtctcctttccggaaaggaggggagagtatagggtagtgaacgccatcaatccagagggtgcagatcgatcttcttcaggagagagaattccccctccatgggcggcttcaccttgacgcgcgggatggctaagctactgacagatagtggggaggggccttgggggctcttgggataacgcactacagcaagagggggggagcggcctcgtgtgcggtctgctgtggaggggctcgaaaagggggggagg

Размещено на Allbest.ru
...

дипломная работа "Распознавание квадруплексов методами глубинного обучения в геноме мыши" скачать

Подобные документы

Разработка универсального набора функций, позволяющих описывать свойства молекул
Методы 3D QSAR/QSPR. Концепция непрерывных молекулярных полей. Визуализация молекулярных полей, полей регрессионных коэффициентов. Построение моделей 3D QSAR/QSPR на основе функций принадлежности точки атомным типам. Оценка качества 3D-QSAR/QSPR моделей.

дипломная работа [653,1 K], добавлен 16.06.2013
Применение сингулярной матрицы в химии
Общие сведения о сингулярном разложении и сингулярных матрицах. Ортогональное разложение посредством сингулярного разложения. Применение сингулярных матриц при многомерном анализе химических данных факторными методами.

реферат [378,8 K], добавлен 10.10.2006
Анализ качества питьевой воды после различной обработки
Характеристика воды как важнейшей составляющей среды нашего обитания. Исследование ее общей карбонатной жесткости и окисляемости методами нейтрализации и перманганатометрии. Применение метода йодометрии для определения содержания остаточного хлора в воде.

курсовая работа [60,3 K], добавлен 05.02.2012
Реагенты, используемые при водоподготовке
Технологии использования солей алюминия и железа в качестве коагулянтов в процессах по улучшению качества воды. Классификация высокомолекулярных флокулянтов на органические (природные и синтетические) и неорганические, анионного и катионного типа.

реферат [1,3 M], добавлен 09.03.2011
Микрокристаллоскопия
Микрохимический анализ и его преимущества. Основные факторы, влияющие на протекание микрокристаллоскопических реакций. Способы устранения нежелательных исходов реакций. Приемы, улучшающие чувствительность. Применение металлов в качестве реактивов.

курсовая работа [499,5 K], добавлен 13.11.2015
Эффективность разных типов синтетических каучуков в качестве вязкостных присадок
Изучение влияния и возможности использования синтетических каучуков и термоэластопластов в качестве вязкостных присадок к моторным маслам. Характеристика продукта деструкции каучука СКИ-3, термоэластопластов ИСТ-20 и ДСТ-30, штатной присадки ПМА-Д.

дипломная работа [173,5 K], добавлен 13.05.2017
Синтез изоамилового эфира уксусной кислоты реакцией этерификации (гидролиза) сложных эфиров
Свойства изоамилацетата. Практическое применение в качестве растворителя в различных отраслях промышленности. Методика синтеза (уксусная кислота и уксуснокислый натрий). Реакция этерификации и гидролиз сложных эфиров. Механизм реакции этерификации.

курсовая работа [634,2 K], добавлен 17.01.2009
Эпоксидные смолы: получение и применение
История развития производства и потребления эпоксидных связующих. Получение смол путем полимеризации и отверждения. Применение эпоксидных смол в качестве эпоксидного клея, для ремонта бетона, железобетонных конструкций, фундаментов и для их усиления.

презентация [497,1 K], добавлен 15.09.2012
Литий: его свойства и применение
Характеристика, основные физические и химические свойства лития. Использование соединений лития в органическом синтезе и в качестве катализаторов. История открытия лития, способы получения, нахождение в природе, применение и особенности обращения.

доклад [11,4 K], добавлен 08.04.2009
Поляриметрия
Применение метода поляриметрического анализа в аналитических целях при количественных определениях различных веществ, примеры его использования. Явление оптической активности вещества как следствия асимметрии молекул. Пары оптических антиподов - изомеров.

презентация [1,8 M], добавлен 12.12.2012
Исследование замещенных тиониланилина в качестве диеновых компонентов реакции Дильса-Альдера
Синтез сульфамидных препаратов нового типа полученных реакцией циклоприсоединения по Дильсу-Альдеру. Определение строения и состава полученных соединений методами спектрофотометрии инфракрасного диапазона и спектроскопии ядерного магнитного резонанса.

дипломная работа [7,1 M], добавлен 03.10.2014
Разработка интерактивных моделей микромира и методика их использования при изучении школьного курса химии
Использование интерактивных компьютерных моделей микромира в химии. Рекомендации по структуре и содержанию основных элементов компьютерной обучающей программы. Структура и компоненты интерактивного задания. Реализация структурных элементов урока химии.

курсовая работа [165,4 K], добавлен 07.10.2009
Хлор: свойства, применение, получение
Общая характеристика хлора как химического элемента, его хранение, транспортировка хлора и стандарты качества. Основные примеры применения и использования хлора. Электролиз: понятие и сущность процесса. Техника безопасности в хлорном производстве.

реферат [617,6 K], добавлен 10.02.2015
Оксиды, их применение
Понятие и особенности химической структуры оксидов, их разновидности и отличительные свойства, распространенность в природе и направления практического применения человеком. Оценка полезности различных оксидов в хозяйственной деятельности на сегодня.

презентация [1,6 M], добавлен 13.04.2012
Изучение электролиза
Понятие электролиза, его практическое применение. Электролизные и гальванические ванны, их электроснабжение для получения алюминия. Применение электрохимических процессов в различных областях современной техники, в аналитической химии и биохимии веществ.

презентация [772,0 K], добавлен 25.07.2015
Биологическое значение и применение галогенов и их соединений
Понятие и практическое значение галогенов, их физические и химические свойства, отличительные признаки. Характеристика и способы получения галогенов: йода, брома, хлора, фтора, астат. Реакции, характерные для данных галогенов, сферы их использования.

презентация [988,7 K], добавлен 11.03.2011
Применение УФ–спектрофотометрии в фармацевтической практике
Основные сферы использования метода УФ-спектрофотометрии в фармацевтической практике. Использование химических и физико-химических методов для определения вещества, анализа и контроля качества лекарственных форм. Основные виды УФ-спектрофотометров.

курсовая работа [950,7 K], добавлен 12.07.2011
Физико-химические свойства йода и его соединений
Физические и химические свойства йода. Важнейшие соединения йода, их свойства и применение. Физиологическое значение йода и его солей. Заболевания, связанные с его нехваткой. Применение йода в качестве антисептика, антимикробные свойства его соединений.

реферат [26,7 K], добавлен 26.10.2009
Применение радиоактивных изотопов в технике
Сущность феномена радиоактивности, история его открытия и изучения, современные знания, их значение и применение в различных сферах. Виды радиоактивных излучений, их характеристика и отличительные черты. Порядок и этапы альфа-, бета-, гамма-распада.

курсовая работа [221,4 K], добавлен 10.05.2009
Наноразмерные катализаторы
Нанокатализ как быстро развивающейся область науки, которая включает использование наноматериалов в качестве катализаторов для различных процессов катализа. Особенности производства наноразмерных катализаторов со 100% селективностью и высокой активностью.

реферат [23,6 K], добавлен 06.01.2014

Другие документы, подобные "Распознавание квадруплексов методами глубинного обучения в геноме мыши"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

	Predicted: NO	Preticted: YES
Actual: NO	56795	3218
Actual: YES	1902	58085

Распознавание квадруплексов методами глубинного обучения в геноме мыши

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Ключевые слова

Описание предметной области

Актуальность работы

Цель

Задачи

2. Обзор литературы

Глава 2. Аннотирование генома мыши на существующей модели

Глава 3. Построение генеративно-состязательной модели

Глава 4. Улучшение генеративно-состязательной модели

Wasserstein Generative Adversarial Network

Wasserstein Generative Adversarial Network with gradient penalty

Least squares Generative Adversarial Network

Глава 5. Результаты

Приложение 1.

Графики функции потерь архитектуры GEN2+DISC2 на GAN, WGAN, WGAN-GP и LSGAN соответственно на 300 итерациях

на GAN, WGAN, WGAN-GP и LSGAN соответственно на 300 итерациях

Графики функции потерь архитектуры GEN2+DISC1 на GAN, WGAN, WGAN-GP и LSGAN соответственно на 300 итерациях

Примеры сгенерированных данных

архитектурой GEN2+DISC1 с WGAN-GP

Подобные документы