Распознавание G-квадруплексов в геноме Saccharomyces cerevisiae методами глубинного обучения

Применение методов глубинного обучения для распознавания G-квадруплексов в геноме Saccharomyces cerevisiae. Ошибка в разметке "plus strand" и "minus strand". Проверка на наличие квадруплексов по паттернам, при настройке на поиск G-квадруплексов.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 14.07.2020
Размер файла 3,2 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Федеральное государственное автономное образовательное

учреждение высшего образования

«Национальный исследовательский университет

«Высшая школа экономики»

Факультет компьютерных наук

Основная образовательная программа

Прикладная математика и информатика

ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА

на тему

“Распознавание G-квадруплексов в геноме Saccharomyces cerevisiae методами глубинного обучения”

квадруплекс паттерн распознавание

Выполнил студентка группы БПМИ163, 4 курса,

Балабан-Ирменина Ирина Алексеевна

Руководитель ВКР:

доцент, Попцова Мария Сергеевна

Москва 2020

Аннотация

G-квадруплексы - это вторичные структуры нуклеиновых кислот, которые образуются на богатых гуанином участках генома. Такие структуры встречаются в геномах различных видов. Исследования показывают, что G-квадруплексы играют важную роль в регуляции ключевых клеточных процессов: транскрипции, трансляции и репликации.

Данная работа посвящена применению методов глубинного обучения для распознавания G-квадруплексов в геноме Saccharomyces cerevisiae. Ранее были рассмотрены методы машинного обучения и методы глубинного обучения для распознавания G-квадруплексов, такие как CNN и RNN, и они показали, что это удобные и продуктивные инструменты для выявления вторичных структур ДНК и РНК.

В настоящей работе была поставлена задача тестирования архитектур, рассчитанных на решение задач NLP, в применимости к проблеме распознавания G-квадруплексов, так как последовательности нуклеотидов можно представить в виде предложений естественного языка. Были выбраны модели типа “трансформеры”, которые на данный момент являются превалирующими в решении задач NLP. Удалось обучить четыре типа моделей: “FlauBERT”, “CamemBERT”, “RoBERTa” и “XLNet”, из которых наилучшую производительность показала “CamemBERT”. В работе была показана возможность применение моделей глубинного обучения на основе архитектур “трансформер” для задач распознавания квадруплексов. “Трасформеры” при решении поставленной задачи показали результаты, сравнимые с CNN и RNN.

G-quadruplexes are secondary structures of nucleic acids. These structures are found in the genomes of various species. Studies show that G-quadruplexes play an important role in the regulation of key cellular processes: transcription, translation, and replication.

This work is devoted to the application of deep learning methods for the recognition of G-quadruplexes in the genome of Saccharomyces cerevisiae. Machine learning methods and deep learning methods for recognizing G-quadruplexes such as CNN and RNN were previously considered, and they showed that they are convenient and productive tools for the detection of secondary structures of DNA and RNA.

In this work, the task was to test architecture, designed to solve NLP problems, because nucleotide sequences can be used in the form of sentences of a natural language. Models of the “transformers” type were chosen, which are currently prevailing in solving NLP problems. I managed to train four types of models: “FlauBERT”, “CamemBERT”, “RoBERTa” and “XLNet”, of which “CamemBERT” showed the best performance. The work showed the possibility of using deep learning models based on “transformer” architectures for G-quadruplex recognition problems. For this task "transformers" showed results comparable to CNN and RNN.

Ключевые слова

Биоинформатика, G-квадруплексы, аннотация функциональных элементов генома, глубинное обучение, нейронные сети, нейронные сети типа “трансформер”.

Введение

G-квадруплексы представляют собой неканонические вторичные структуры, которые могут возникать в последовательностях ДНК и РНК, богатых гуанином. При определенной последовательности азотистых оснований, цепи нуклеиновых кислот могут складываться в четырёхцепочечную спираль, где четыре гуаниновых основания из разных цепей образуют плоскую структуру, удерживаемую парными взаимодействиями G-G. Такие структуры являются стабильными и называются G-тетрадами, квадруплексы могут содержать несколько подобных тетрад [1]. Устойчивость им придает моновалентный катион небольшого размера.

Рис. 1.1. Пример визуализации G-тетрады

G-квадруплексы формируются из наложенных друг на друга G-тетрад, в количестве от 2 до 12, и соединены цепями нуклеиновых кислот.

Ученые на данный момент занимаются тем, что стремятся выявить G-квадруплексы в геномах различных видов. Доказано, что в геноме человека наличие G-квадруплексов коррелируют с появлением раковых опухолей. Однако, для других видов функционал G-квадруплексов изучен гораздо меньше. Данное исследование может помочь выяснить роль, которую эти вторичные структуры играют в геноме Saccharomyces cerevisiae, а также в будущем выявить зависимости появления G-квадруплепксов у разных видов, в том числе и в геноме человека. Основная цель работы - предложить новый для данной области метод глубинного обучения для предсказания образования G-квадруплексов в геноме дрожжей и в идеале повысить точность и полноту предсказания.

Задачу распознавания вторичных структур ДНК можно рассматривать как задачу NLP, где последовательности нуклеотидов будут подаваться на вход модели как предложения естественного языка. Для решения этой задачи были рассмотрены еще не используемые для детекции G-квадруплексов методы глубинного обучения: архитектуры типа “трансформер” - “BERT” [2] и его аналоги: “FlauBERT” [3], “CamemBERT” [4], “RoBERTa” [5], “XLNet” [6], “XLM” [7], “DistilBERT” [8], “ALBERT” [9] и подобраны оптимальные параметры и гиперпараметры для этих моделей.

Обзор литературы

Для генома Saccharomyces cerevisiae есть анализ геномного распределения потенциальных квадруплексообразующих последовательностей [10]. Исследование берет за основу информацию, что последовательности, обогащенные внутримолекулярным G-квадруплексообразующим потенциалом (QFP), располагаются в транскрипционных промоторах человека и других видов, и подтверждает предположение об аналогичном обогащении для Saccharomyces cerevisiae. Алгоритм для выявления QFP, основанный на паттернах, сканировал геном на наличие четырех повторов, по меньшей мере, трех последовательных гуанинов, в пределах окна диапазона от 25 до 1000 нуклеотидов по формуле:

Результат, полученный в статье, говорит, что последовательностей, обогащеных QFP, в геноме Saccharomyces cerevisiae больше в транскрипционных промоторах, что верно и для других видов.

На практике, детекция квадруплексов, основанная на паттернах, часто оказывается не точной. Поэтому закономерно пытаться применить методы машинного обучения для определения квадруплексов. Например, модель, представленная в статье “ Machine learning model for sequence-driven DNA G-quadruplex formation” удобна тем, что является довольно гибкой. Она обладает большим количеством настраевыемых параметров (число деревьев, глубина взаимодействия, скорость обучения и др.) На оптимальных параметрах архитектура показала значения True Positive Rate (TPR) и True Negative Rate (TNP) более 80% на геноме человека. Однако утверждается, что данная архитектура применима и к любым другим геномам [11].

Гораздо лучший результат дают нейросетевые модели [12]. Предлагается двухэтапная модель детекции квадруплекса, основанная на сверточной нейронной сети для последовательности нуклеотидов фиксированной длины, которая показывает вероятность нахождения в ней квадруплекса, и на рекурентной нейронной сети, которая определяет точные границы квадруплекса в геноме. Идея заключается в выделении участков с высокой вероятностью нахождения квадруплекса с помощью CNN и последующем запуске на этих участках RNN, определяющей точные границы квадруплекса. Данные для обучения этой архитектуры были взяты из генома человека, размеченные с помощью метода секвенирования структур G-квадруплексов в ДНК “G4-seq” [13]. Результат TPR=0.99, TNP=0.92.

Эксперименты и результаты

Описание данных

Последовательности генома Saccharomyces cerevisiae были получены из базы данных генома (SGD) [14]. Это геном взят из целой клетки необработанного, дикого типа организма. ДНК экстрагировали стандартной экстракцией с использованием фенола и хлороформа. Образцы геномной ДНК обрабатывали ультразвуком. Данные разбиения на квадруплексы взяты с сайта National Center for Biotechnology Information Search [15]. Выделение G-квадруплексов в геноме производилось с помощью “G4-seq”. Всего в геноме Saccharomyces cerevisiae 16 хромосом и 502 отрезка, на которых были обнаружены G-квадруплексы, 282 на положительном стренде и 220 на отрицательном.

Ошибка в разметке “plus strand” и “minus strand”

Размеченные G-квадруплексы находятся как в положительном, так и в отрицательном стрендах хромосом. Так как G-квадруплексы обычно содержат повышенное содержание гуанина, я проверила его процентное содержание в предполагаемых последовательностях, содержащих G-квадруплексы. Получились следующие результаты:

Таблица 2.1. Процентное содержание гуанина в хромосомах для разных направлений нитей ДНК

Прямое направление

Обратное направление

Plus strand

16%

30%

Minus strand

31%

16%

Это натолкнуло меня на мысль, что возможно файлы с положительным и отрицательным стрендом должны поменяться местами. Чтобы удостовериться в догадке, я проверила последовательности на наличие G-квадруплексов по паттернам на сайте “pqsfinder” [16].

Таблица 2.2. Проверка на наличие квадруплексов по паттернам, при настройке на поиск G-квадруплексов в положительном стренде:

Прямое направление

Обратное направление

Plus strand

0%

30%

Minus strand

50%

0%

Таблица 2.3. Проверка на наличие квадруплексов по паттернам, при настройке на поиск G-квадруплексов в отрицательном стренде:

Прямое направление

Обратное направление

Plus strand

40%

0%

Minus strand

0%

45%

Из этого можно сделать вывод, что положительный стренд надо использовать как отрицательный и наоборот.

Предобработка данных

Сначала я сделала предобработку данных. Выборка для данного генома была небольшой: 282 отрезка для положительного стренда и 220 для отрицательного, на которых были выявлены G-квадруплексы. Минимальный размер последовательности - 15 нуклеотидов, максимальный - 488 нуклеотидов, среднее количество по выборке - 131 нуклеотидов.

Рис. 3.1. Распределение длин последовательностей, содержащих G-квадруплексы, для положительного направления ДНК.

Рис. 3.2. Распределение длин последовательностей, содержащих G-квадруплексы, для положительного направления ДНК.

Распределение оказалось нормальным, а выборка - небольшой, поэтому я убрала по 5% самых больших и самых маленьких последовательностей, чтобы избавиться от выбросов, и получила следующие результаты: осталось 479 отрезков с выявленными G-квадруплексами, минимальная длина последовательности - 30 нуклеотидов, максимальная - 270 нуклеотидов, среднее - 130.

Рис. 3.3. Распределение длин последовательностей, содержащих G-квадруплексы, после начальной обработки выборки.

Так как передо мной стояла задача бинарной классификации, надо было сгенерировать отрицательный класс для обучения моделей. Создала я его такого же объема и распределения, как и положительный класс, из последовательностей нуклеотидов, в которых не были найдены G-квадруплексы.

Для обучения моделей данные были разбиты на тренировочные и тестовые в соотношении 80/20.

Модель “трансформер”

Основная идея, используемая в архитектурах типа “трансформер” - использовать при пересчете скрытого представления -ого слова из слоя в слой учитывается представление каждого другого слова в предложении , (Self-Attention).

Рис. 4.1. Один проход головки внимания по -ому слову

между слоями и

Сначала мы из входных векторов слов полученного предложения создаем три дополнительных вектора меньшего размера - , которые для всех слов в предложении образуют матрицы соответственно.

Затем мы делаем скалярное произведение каждого на каждый вектор, и нормализуем оценки с помощью softmax.

Следующий шаг - умножить вектор значения на полученную на прошлом этапе оценку данного слова и получить результирующий вектор .

Результирующий вектор мы можем отправлять обучаться в нейронную сеть с прямой связью (Feed Forward NN).

Однако для каждого предложения может быть несколько “подпространств представления”. Неудачная инициализация векторов может привести к плохим результатам, поэтому одновременно вычисляется несколько наборов , инициализированных случайным образом, из которых получается несколько результирующих матриц , которые объединяются, а затем домножаются на матрицу , чтобы сохранить нужные размерности.

Рис. 4.2. 1) Объединение финальных представлений слов после работы каждой головки внимания; 2) Домножение на матрицу весов для сохранения размерности; 3) Итоговое представление входного предложения в виде матрицы .

Последним шагом в части кодера будет еще одна нормализация уровня.

Рис. 4.3. Визуализация кодера архитектуры “трансформер” с головками внимания.

Обычно используется несколько кодеров и декодеров, количество которых зависит от задачи.

Структура декодера является похожей на структуру кодера.

Рис. 4.4. Визуализация модели типа “трансформер” с двумя кодерами и двумя декодерами.

Слой “encoder-decoder attention” работает аналогично “self-attention” слою кодера, однако различие есть со слоем “self-attention” декодера - в нем рассматриваются только вектора позиций до текущей. Достигается это путем маскирования последующих векторов до шага softmax.

Последний слой переводит вектор с плавающей точкой в слово. Это полносвязная нейронная сеть, которая проецирует данный вектор в вектор логитов - уникальных слов “выходного словаря”, выбранного и загруженного в модель изначально.

Затем слой softmax превращает оценки для каждого уникального слова в вероятности, и наиболее вероятное слово уходит на выход модели [17] [18].

Рис. 4.5. Переход от вектора на выходе последнего декодера в массив вероятностей для каждого слова из “выходного словаря”.

Одной из главных проблем трансформеров в целом и моей задачи в частности является большое количество несловарных слов, которые тоже надо обрабатывать и предсказывать. Решение, используемое в BERT и большинстве подобных моделей - “WordPiece” токенизация, то есть слово, которое не находится в словаре, разбивается на более маленькие части. Такие части уже находятся в словаре, и есть возможность представлять их в контексте других слов или их частей. [19]

Построение простых моделей

Некоторые модели “трансформеров” содержатся уже предобработанными на корпусах разных языков в библиотеке “simpletransformers” [20] языка Python, что в большой степени облегчило работу.

Было обучено 8 моделей-трасформеров: “BERT”, “RoBERTa”, “ALBERT”, “XLNet”, “XLM”, “FlauBERT”, “DistilBERT” и “CamemBERT” на 1 и 3 эпохах каждая (форма модели - “based”).

Таблица 5.1. Результат обучения моделей архитектуры “трансформер” при стандартных параметрах.

BERT

RoBERTa

ALBERT

XLNet

Epoches

1

3

1

3

1

3

1

3

Precision

0.51

1.0

0.88

0.93

1.0

1.0

0.85

0.88

Recall

0.89

0.03

0.9

0.89

0.01

0.01

0.89

0.9

XLM

FlauBERT

DistilBERT

CamemBERT

Epoches

1

3

1

3

1

3

1

3

Precision

1.0

0.51

0.94

0.91

0.51

1.0

0.96

0.9

Recall

0.01

1.0

0.9

0.94

0.9

0.03

0.76

0.9

В результате получили следующее: 4 модели, “RoBERTa”, “XLNet”, “FlauBERT”, “CamemBERT” отработали с точностью и полнотой >0.75. Про остальные модели можно сказать, что они не обучились и по большей части не распознали G-квадруплексы и все последовательности отнесли к отрицательному классу.

Стоит отметить, что “FlauBERT” и “CamemBERT” - единственные в выборке модели, обученные на корпусе французского языка, а “RoBERTa” и “XLNet” - модели, которые долго лидировали на сайте тестирования моделей для решения задач NLP “GLUE” [21].

Подбор параметров и гиперпараметров

Я решила подобрать значения для следующих параметров и гиперпараметров модели, что бы улучшить их работу:

коэффициент скорости обучения (“learning rate”)

Коэффициент скорости обучения - параметр градиентных алгоритмов обучения нейронных сетей, который управляет величиной коррекции весов на каждой итерации. В данной задаче оптимальными значениями этого параметра являются значения в диапазоне от 5e-5 до 1е-6, что меньше зафиксированного в самих моделях значения в 4e-5 [20].

параметр для дифференцированных данных (“warmup ratio”)

Параметр “warmup ratio” помогает обучать модель, когда данные сильно различаются. Дифференцированные данные могут привести к образованию случайных векторов, которые будут мешать обучению.

Наши данные оказались не сильно дифференцированными, поэтому модели лучше всего себя показали на “warmup ratio” в диапазоне от 0.06 до 0.16, при стандарте 0.06 для предложенных моделей [20].

максимальная длина последовательности (“max sequence length”)

Максимальная длина последовательности - максимальная возможная длина предложения после токенизации, на которой обучается модель. Для “base” моделей значение устанавливается 128 по умолчанию, для “large” - 512. В первую очередь влияет на затрачиваемую память [20].

Так как в данной задаче последовательности длины от 30 до 270, я решила проверить, будет ли этот параметр влиять на качество обучения, а не только на скорость. Оказалось, что этот парамерт не сильно влияет на качество, однако в районе 200-250 для некоторых моделей он показывает лучший результат.

общее число тренировочных объектов, представленных в одном батче (“train batch size”)

Количество обучаемых элементов до обновления внутренних параметров модели - гиперпараметр стохастического градиентного спуска. Также как и в предыдущем параметре, первую очередь влияет на затрачиваемую память и в исходных моделях принимает значение 8 [20].

Как показал эксперимент, в данной задаче нет конкретного количества данных, которые изменили бы качество моделей в лучшую сторону.

Таблица 6.1. Оптимальные параметры обучения модели

“FlauBERT”

train_batch_size

10

transformer blocks

12

hidden size

768

num of head attention

12

warmut_ratio

0.12

learning_rate

5e-5

max_seq_lenght

250

Таблица 6.2. Оптимальные параметры обучения модели

“CamemBERT”

train_batch_size

10

transformer blocks

12

hidden size

768

num of head attention

12

warmut_ratio

0.16

learning_rate

5e-5

max_seq_lenght

130

Таблица 6.3. Оптимальные параметры обучения модели

“RoBERTa”

train_batch_size

12

transformer blocks

12

hidden size

768

num of head attention

12

warmut_ratio

0.06

learning_rate

1e-5

max_seq_lenght

180

Таблица 6.4. Оптимальные параметры обучения модели

“XLNet”

train_batch_size

8

transformer blocks

12

hidden size

768

num of head attention

12

warmut_ratio

0.18

learning_rate

5e-6

max_seq_lenght

130

Модели с конкретными параметрами

Возьмем модели, которые хорошо себя показали в п.5 и обучим их с подобранными значениями параметров из п.6.

Таблица 7.1. Результаты обучения моделей “FlauBERT”, “CamemBERT”, “RoBERTa”, “XLNet” на 3 эпохах и оптимальных параметрах.

FlauBERT

CamemBERT

RoBERTa

XLNet

precision

0.95

0.97

0.92

0.92

recall

0.94

0.93

0.95

0.94

auc-roc

0.99

0.99

0.99

0.98

FlauBERT

Модель архитектуры BERT, предобученная на 24 французских корпусах, “WMT19”, “OPUS collection” и других, объем которых в итоге составил 71 GB. [3]

Рис. 7.1. ROC кривая на тестовой выборке при обучении модели

“FlauBERT”

CamemBERT

Предобученная также на французском корпусе “OSCAR” (данные из интернета, около 4 GB) модель, очень похожа на модель RoBERTa, которая будет рассмотрена ниже. Основное различие состоит в том, что в этой модели для распознавания незнакомых слов используется “SentencePiece” токенизация [22], которая позволяет обучать в модели подслова из необработанных заранее предложений, что позволяет анализировать токены вне зависимости от языка входного предложения, а не “WordPiece” токензация, описанная выше. [4]

Рис. 7.2. ROC кривая на тестовой выборке при обучении модели “CamemBERT”

RoBERTa

Модель основана на модели BERT и модифицирует ее ключевые гиперпараметры. В первую очередь стоит отметить, что обучение этой модели происходило на датасетах “CC-News”, “BOOKCORPUS” и др., более обширных (160 GB), чем в BERT (16 GB). Используется динамическое маскирование, когда маскируемое слово не фиксируется, а меняется раз в несколько эпох. Также настраиваются другие гиперпараметры в алгоритме оптимизации “Adam” [23], который используется во всех моделях типа “трансформер” как расширение стохастического градиентного спуска [5].

BERT: в1 = 0.9, в2 = 0.999, o = 1e-6

RoBERTa: в1 = 0.9, в2 = 0.98, o - настраивается.

Рис. 7.3. ROC кривая на тестовой выборке при обучении модели

“RoBERTa”

XLNet

Является расширением модели Transformer-XL [24], которая решает проблему “трансформеров” обрабатывать последовательности только определенной длины. Модель предварительно обучена с использованием метода авторегрессии.

Это позволяет при маскировании токенов не учитывать предположение об их независимости, как это реализовано в BERT, и не страдает от проблемы, что из-за замаскированных токенов получается несоответствие между тренировочными и тестовыми последовательностями [6].

Рис. 7.4. ROC кривая на тестовой выборке при обучении модели

“XLNet”

Выводы

Из полученных результатов можно сделать вывод, что наилучшей архитектурой из рассмотренных для решения данной задачи подходит модель “CamemBERT”. Скорее всего, она обучилась лучше остальных, потому что в ней используется “SentencePiece” токенизация, которая позволяет при обучении не привязываться к языку входящих последовательностей при разбиении на токены. Поскольку наши входные последовательности в любом случае целиком разбиваются на токены, так как не являются предложениями в представлении естественного языка, отсутствие привязки к конкретному языку при обучении упрощает работу модели.

Кроме того, стоит отметить модель “RoBERTa”, которая также показала хорошие результаты на данной выборке. Смена маскированных слов раз в несколько эпох вряд ли помогла в обучении в данном случае из-за того, что я не использовала в обучении больше 3 эпох во избежание переобучения, однако иначе подобранные гиперпараметры оптимизатора “Adam”, отличные от этих же гиперпараметров в других рассмотренных моделях, скорее всего улучшили работу этой архитектуры на представленных данных.

В целом, модели, предобученные на французских корпусах отработали лучше, чем предобученные на английских или многоязыковые модели. Например, “BERT” не показал хороших результатов, в отличие от “FlauBERT”, которая берет архитектуру “BERT” без изменений, обучает ее на данных на французском языке.

Мною были рассмотрены только модели версии “base”, которые являются упрощением версий “large” по количеству скрытых слоев головок внимания, потому что более сложные версии вышеописанных моделей переобучались на моих данных. По этой же причине я не брала большое количество эпох для обучения.

Заключение

В данной работе удалось решить поставленные задачи. Построенные модели, основанные на архитектуре “трансформер”, достигли хорошего качества детекции G-квадруплексов с точностью и полнотой в границах 0.92-0.97 и AUC-ROC более 0.98.

Можно сделать вывод, что “трансформеры” хорошо подходят для решения задачи распознавания G-квадруплексов, но на представленном геноме Saccharomyces cerevisiae не превосходят качеством рекурентные модели.

В дальнейшем планируется применение архитектуры «трансформер» к задаче полной аннотации генома квадруплексов с помощью параллельных вычислений, в которых архитектура «трансформер» предпочтительнее CNN и RNN, а также протестировать разработанные модели на других геномах, в том числе и на геноме человека.

Список литературы

Kolesnikova S., Curtis E.A. Structure and Function of Multimeric G-Quadruplexes, Molecules. 2019 Sep; 24(17): 3074. doi: 10.3390/molecules24173074.

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2018 Oct.

Hang Le, Loпc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoоt Crabbй, Laurent Besacier, Didier Schwab FlauBERT: Unsupervised Language Model Pre-training for French, 2019 Dec.

Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suбrez, Yoann Dupont, Laurent Romary, Йric Villemonte de la Clergerie, Djamй Seddah, Benoоt Sagot CamemBERT: a Tasty French Language Model, 2019 Nov.

Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov RoBERTa: A Robustly Optimized BERT Pretraining Approach, 2019 Jul.

Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le XLNet: Generalized Autoregressive Pretraining for Language Understanding, 2019 Jun.

Guillaume Lample, Alexis Conneau Cross-lingual Language Model Pretraining, 2019 Jan.

Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, 2019 Oct.

Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut ALBERT: A Lite BERT for Self-supervised Learning of Language Representations, 2019 Sep.

Steve G. Hershman, Qijun Chen, Julia Y. Lee, Marina L. Kozak, Peng Yue, Li-San Wang, F. Brad Johnson Genomic distribution and functional analyses of potential G-quadruplex-forming sequences in Saccharomyces cerevisiae, Nucleic Acids Res. 2008 Jan; 36(1): 144-156. doi: 10.1093/nar/gkm986.

Aleksandr B. Sahakyan, Vicki S. Chambers, Giovanni Marsico, Tobias Santner, Marco Di Antonio, Shankar Balasubramanian Machine learning model for sequence-driven DNA G-quadruplex formation. 2017 Nov.

Латышев П.В. Аннотация генома функциональными элементами методами обучения с учителем, 2019

Giovanni Marsico, Vicki S Chambers, Aleksandr B Sahakyan, Patrick McCauley, Jonathan M Boutell, Marco Di Antonio, and Shankar Balasubramanian Whole genome experimental maps of DNA G-quadruplexes in multiple species, 2019 Mar; 47(8): 3862-3874. doi: 10.1093/nar/gkz179.

http://www.yeastgenome.org/gene_list.shtml

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM3003554

https://pqsfinder.fi.muni.cz/

Chaitanya Joshi Transformers are Graph Neural Networks, 2020 Feb.

Jay Alammar The Illustrated Transformer, 2018 Jun.

Rico Sennrich and Barry Haddow and Alexandra Birch Neural Machine Translation of Rare Words with Subword Units, 2016 Aug.

doi: 10.18653/v1/P16-1162.

https://pypi.org/project/simpletransformers/#2020-05-05

https://gluebenchmark.com/

Taku Kudo and John Richardson Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing, 2018 Nov; doi: 10.18653/v1/D18-2012.

Diederik P. Kingma, Jimmy Ba Adam: A Method for Stochastic Optimization, Machine Learning, 2014 Dec

Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context, 2019 Jan.

Приложение

FlauBERT

model = ClassificationModel('flaubert', 'flaubert-base-cased',

args={'train_batch_size': 10, 'max_seq_length': 250, 'num_train_epochs': 3, 'warmut_ratio': 0.12, 'learning_rate': 5e-5}, 

use_cuda=False)

model.train_model(df_train)

model.eval_model(df_test)

CamemBERT

model = ClassificationModel('camembert', 'camembert-base',

args={'train_batch_size': 10, 'max_seq_length': 130, 'num_train_epochs': 3, 'warmut_ratio': 0.16, 'learning_rate': 5e-5}, 

use_cuda=False)

model.train_model(df_train)

model.eval_model(df_test)

RoBERTa

model = ClassificationModel('roberta', 'roberta-base',

args={'train_batch_size': 12, 'max_seq_length': 180, 'num_train_epochs': 3, 'warmut_ratio': 0.06, 'learning_rate': 1e-5}, 

use_cuda=False)

model.train_model(df_train)

model.eval_model(df_test)

XLNet

model = ClassificationModel('xlnet', 'xlnet-base-cased',

args={'train_batch_size': 8, 'max_seq_length': 130, 'num_train_epochs': 3, 'warmut_ratio': 0.18, 'learning_rate': 5e-6}, 

use_cuda=False)

model.train_model(df_train)

model.eval_model(df_test)Размещено на Allbest.ru

...

Подобные документы

  • Теоретические основы распознавания образов. Функциональная схема системы распознавания. Применение байесовских методов при решении задачи распознавания образов. Байесовская сегментация изображений. Модель TAN при решении задачи классификации образов.

    дипломная работа [1019,9 K], добавлен 13.10.2017

  • Как работает система оптического распознавания. Деление текста на символы. Образ страницы и распознавание по шаблонам, особенности коррекции ошибок. Увеличение скорости бесклавиатурного ввода документов в технологиях электронного документооборота.

    контрольная работа [15,6 K], добавлен 29.04.2011

  • Понятие и особенности построения алгоритмов распознавания образов. Различные подходы к типологии методов распознавания. Изучение основных способов представления знаний. Характеристика интенсиональных и экстенсиональных методов, оценка их качества.

    презентация [31,6 K], добавлен 06.01.2014

  • Анализ существующих алгоритмов распознавания режимов работы газотурбинного двигателя. Метод группового учета аргументов, метод Байеса. Применение технологий системного моделирования на этапе проектирования интеллектуальной системы распознавания режимов.

    курсовая работа [1,4 M], добавлен 11.04.2012

  • Методы распознавания образов (классификаторы): байесовский, линейный, метод потенциальных функций. Разработка программы распознавания человека по его фотографиям. Примеры работы классификаторов, экспериментальные результаты о точности работы методов.

    курсовая работа [2,7 M], добавлен 15.08.2011

  • Процессы распознавания символов. Шаблонные и структурные алгоритмы распознавания. Процесс обработки поступающего документа. Обзор существующих приложений по оптическому распознаванию символов. Определение фиксированного шага и сегментация слов.

    дипломная работа [3,3 M], добавлен 11.02.2017

  • Распознавание образов - задача идентификации объекта или определения его свойств по его изображению или аудиозаписи. История теоретических и технических изменений в данной области. Методы и принципы, применяемые в вычислительной технике для распознавания.

    реферат [413,6 K], добавлен 10.04.2010

  • Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.

    презентация [469,2 K], добавлен 15.03.2015

  • Понятие системы распознавания образов. Классификация систем распознавания. Разработка системы распознавания формы микрообъектов. Алгоритм для создания системы распознавания микрообъектов на кристаллограмме, особенности его реализации в программной среде.

    курсовая работа [16,2 M], добавлен 21.06.2014

  • Описание структурной схемы искусственного нейрона. Характеристика искусственной нейронной сети как математической модели и устройств параллельных вычислений на основе микропроцессоров. Применение нейронной сети для распознавания образов и сжатия данных.

    презентация [387,5 K], добавлен 11.12.2015

  • Оптическое распознавание символов как механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов. Компьютерные программы для оптического распознавания символов и их характеристика.

    презентация [855,2 K], добавлен 20.12.2011

  • Создание программного средства, осуществляющего распознавание зрительных образов на базе искусственных нейронных сетей. Методы, использующиеся для распознавания образов. Пандемониум Селфриджа. Персептрон Розенблатта. Правило формирования цепного кода.

    дипломная работа [554,8 K], добавлен 06.04.2014

  • Разработка программной базы для исследований в области распознавания речи и поиска ключевых слов в ней. Расчет mel-фильтров. Скрытые марковские модели. Применение в алгоритме сверточного декодирования Витерби. Методы визуализации и обработки аудиоданных.

    курсовая работа [1,1 M], добавлен 01.06.2015

  • Оптико-электронная система идентификации объектов подвижного состава железнодорожного транспорта. Автоматический комплекс распознавания автомобильных номеров. Принципы и этапы работы систем оптического распознавания. Особенности реализации алгоритмов.

    дипломная работа [887,3 K], добавлен 26.11.2013

  • Обзор математических методов распознавания. Общая архитектура программы преобразования автомобильного номерного знака. Детальное описание алгоритмов: бинаризация изображения, удаление обрамления, сегментация символов и распознавание шаблонным методом.

    курсовая работа [4,8 M], добавлен 22.06.2011

  • Принципы и система распознавание образов. Программное средство и пользовательский интерфейс. Теория нейронных сетей. Тривиальный алгоритм распознавания. Нейронные сети высокого порядка. Подготовка и нормализация данных. Самоорганизующиеся сети Кохонена.

    курсовая работа [2,6 M], добавлен 29.04.2009

  • Искусственные нейронные сети как одна из широко известных и используемых моделей машинного обучения. Знакомство с особенностями разработки системы распознавания изображений на основе аппарата искусственных нейронных сетей. Анализ типов машинного обучения.

    дипломная работа [1,8 M], добавлен 08.02.2017

  • Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.

    курсовая работа [2,1 M], добавлен 20.09.2014

  • Выбор типа и структуры нейронной сети. Подбор метода распознавания, структурная схема сети Хопфилда. Обучение системы распознавания образов. Особенности работы с программой, ее достоинства и недостатки. Описание интерфейса пользователя и экранных форм.

    курсовая работа [3,0 M], добавлен 14.11.2013

  • Появление технических систем автоматического распознавания. Человек как элемент или звено сложных автоматических систем. Возможности автоматических распознающих устройств. Этапы создания системы распознавания образов. Процессы измерения и кодирования.

    презентация [523,7 K], добавлен 14.08.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.