Применение методов машинного обучения для предсказания пространственной структуры белков

Предсказание трехмерной структуры белка. Предсказание матрицы контактов белка с помощью информации об ограничениях, содержащейся в матрице контактов. Применение моделей машинного обучения XGBoost, CatBoost, Logistic Regression, CNN, ResNet, BiLSTM, LSTM.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 25.08.2020
Размер файла 1,9 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ФКН НИУ ВШЭ

ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА

на тему Применение методов машинного обучения для предсказания пространственной структуры белков

Выполнил студент группы 164, 4 курса,

Цхай Борис Витальевич

Руководитель ВКР: д. ф.-м.н., профессор

Посыпкин Михаил Анатольевич

Оглавление

1. Введение

1.1 Описание задачи

1.2 Цели работы

1.3 Краткое описание проделанной работы

2. Краткий обзор существующих подходов

3. Методы

3.1 Данные

3.2 Признаки

3.3 Архитектуры

4. Результаты

4.1 Метрики

4.2 Результаты

5. Заключение

6. Источники

7. Приложение

7.1 CNN

7.2 ResNet

7.3 LSTM

7.4 Bidirectional LSTM

7.5 ResNet + Bidirectional LSTM

7.6 Conv1D + Bidirectinal LSTM

Аннотация

Предсказание трехмерной структуры белка является одной из самых обсуждаемых проблем в биоинформатике на данный момент. Знание структуры необходимо для понимания функциональности белка, что в свою очередь может помочь в борьбе с болезнями, против которых не существует лекарственных препаратов. Целью данной работы является предсказание матрицы контактов белка. С помощью информации об ограничениях, содержащейся в матрице контактов, возможно, под определенными обстоятельствами, реконструировать трехмерную структуру белка с высокой точностью, благодаря тому факту, что данная матрица является двумерным представлением белка. В ходе работы были рассмотрены различные модели машинного обучения (XGBoost, CatBoost, Logistic Regression, CNN, ResNet, BiLSTM, LSTM). Как результат, удалось достичь значения 0.79 на метрике F1, используя гибрид, состоящий из ResNet и BiLSTM.

Список ключевых слов Матрица контактов белка, нейронные сети, машинное обучение, сворачивание белка.

Abstract

машинный белок информация матрица

The prediction of the three-dimensional structure of the protein is one of the most discussed problems in bioinformatics at the moment. Knowledge of the structure is necessary for understanding the functionality of the protein, which in turn can help in the fight against diseases against which there are no drugs. The aim of this work is to predict the protein contact map. Using the information on the limitations contained in the contact map, it is possible, under certain circumstances, to reconstruct the threedimensional structure of the protein with high accuracy, due to the fact that this matrix is a two-dimensional representation of the protein. In the course of work, various machine learning models were considered (XGBoost, CatBoost, Logistic Regression, CNN, ResNet, BiLSTM, LSTM). As a result, it was possible to achieve a value of 0.79 on the F1 metric using a hybrid consisting of ResNet and BiLSTM.

1. Введение

Белок является одной из важнейших макромолекул, обладающих широким разнообразием функций и играющих огромную роль во всех живых организмах. Обычно в структуре белков выделяют 20 различных аминокислот. Множество их всевозможных комбинаций образуют молекулы белков, каждая из которых выполняет свою функцию. Так, некоторые из них играют важную роль в обмене веществ, другие могут выполнять механическую функцию поддержания формы клеток и так далее. Все их функциональные свойства напрямую зависят от трехмерной структуры синтезированного белка. Имея представление о структуре определенного белка, становится возможным эффективная разработка лекарственных препаратов. Процесс формирования данной структуры называется сворачиванием белка. Он состоит из трех основных этапов:

1. Первичная структура - линейная последовательность аминокислот, не обладающая какой-либо устойчивой формой.

2. Вторичная структура - первый шаг сворачивания на пути к естественной структуре белка. Линейные последовательности аминокислот, полученные на первом этапе, при взаимодействии друг с другом образуют одну из двух вторичных структур: альфа спирали или бета листы.

3. Третичная структура - в процессе взаимодействия вторичных структур образовывается устойчивая трехмерная структура белка.

Рис. 1.1 Процесс формирования структуры белка

Эта связь между уникально сложенной трехмерной структурой белка и его функциональностью вызывает необходимость изучения структуры белка для понимания его функционального механизма. Существует несколько экспериментальных методов разрешения поставленной задачи [1][2], однако все они требуют довольно больших затрат, в том числе и временных, и имеют целый ряд других сложностей, поэтому предпочтение отдается вычислительным методам. Предсказывать структуру белка, основываясь только на последовательности аминокислот, довольно тяжело, поэтому для упрощения этого процесса было предложено, в первую очередь, разбить его на подзадачи.

1.1 Описание задачи

Одной из подзадач является предсказание матрицы контактов белка. Она представляет собой бинарную симметричную матрицу, в каждой ячейке которой стоит 0 или 1 в зависимости от того, находятся ли рассматриваемые аминокислоты в контакте. Принято, что две аминокислоты в последовательности находятся в контакте, если расстояние между ними меньше 8 В. Матрица контактов белка является упрощенным представлением трехмерной структуры протеина, вследствие чего содержит в себе важную информацию об его структурных ограничениях. Благодаря двумерной матрице контактов становится возможным с довольно хорошей точностью реконструировать трехмерную структуру белка [3][4].

1.2 Цели работы

В рамках данной работы предлагается исследовать различные методы предсказания матрицы контактов белка, включая стандартные модели машинного обучения и нейронные архитектуры, а также выявить определенные закономерности, от которых может зависеть качество прогнозирования.

1.3 Краткое описание проделанной работы

Всего было испробовано: три готовые модели машинного обучения и шесть архитектур нейронных сетей. Были протестированы два различных датасета, один из которых состоит из признаков отдельных аминокислот, другой содержит в себе признаки для пар аминокислот. Лучший результат показал гибрид из ResNet и BiLSTM с результатом в 0.79 на метрике F1.

Все исследование проводилось на языке Python версии 3.8.1. Для построения нейросетевых моделей использовалась библиотека Keras. Все вычисления происходили на бесплатных серверах Google Colab и Kaggle.

2. Краткий обзор существующих подходов

Цель этой главы - кратко описать существующие методологии прогнозирования матрицы контактов белка.

Статья «Advances in protein contact map prediction based on machine learning» [1] наглядно показывает, почему предсказание белковой матрицы контактов является важной подзадачей, какие методы и подходы существуют для разрешения проблемы и каких результатов следует ожидать. Матрица контактов содержит значительный блок информации касательно структуры белков, что может помочь восстановить трехмерную модель с достаточной точностью. Это не удивительно, так как матрица контактов, по существу, является двумерным представлением структуры белка, где два остатка можно считать находящимися в контакте, если расстояние между ними менее 8 В.

Методы прогнозирования можно разделить на три класса:

1. Алгоритмы машинного обучения, включающие в себя нейронные сети, скрытые Марковские модели и т.д.;

2. Основанные на шаблонах методы, сильно зависящие от количества гомологов;

3. Эволюционные информационные модели.

Для того, чтобы дать оценку тому или иному методу, обычно используются следующие метрики: accuracy, F1, precision, recall и коэффициент корреляции Мэтьюса.

Однако, в заключение, хотелось бы сказать, что несмотря на прогресс в данной области, все существующие методы имеют низкое качество предсказания на средних и дальних контактах.

Статья «Protein contact map prediction using bidirectional recurrent neural network» [2] предлагает решить проблему прогнозирования белковой матрицы контактов с помощью двунаправленной RNN. Выбор данной архитектуры основан на том факте, что она крайне хорошо работает с информацией, представленной в виде последовательности, а тот факт, что рекуррентная сеть двунаправленная, помогает выделять зависимости с двух концов белковой цепи. Также интересный момент данной статьи заключается в том, что для тренировочной выборки был взят меньший порог, равный 4.5 В. Это означает, что два остатка можно считать контактирующими, если расстояние между ними меньше 4.5 В. Такой подход позволяет повысить точность финального прогноза, несмотря на уменьшение числа образцов положительного класса. Еще одним важным моментом, который необходимо упомянуть, является вход в сеть, так как единственная функция, которая была использована, - сама аминокислотная последовательность. Что касается образцов, 8646 белков из банка данных белков были использованы в качестве тренировочных, проверочных и испытательных образцов.

Для измерения результатов модели были использованы следующие метрики:

1. Accuracy;

2. AUC-ROC;

3. False positive rate;

4. False negative rate.

Получившаяся конечная модель, сумела достигнуть точности равной 0,80.

Статья «Accurate prediction of protein contact maps by coupling residual two-dimensional bidirectional long short-tern memory with convolutional neural networks» [3] покрывает проблему предсказывания матрицы контактов белка путем использования сверхглубокой гибридной сети, состоящей из ResNet в сочетании с 2D-BRLSTM. Преимущество этого подхода заключается в том, что такая архитектура позволяет захватывать контекстную информацию на каждом слое, что, в свою очередь, делает возможным получение лежащих в основе отношений между нелокальными парами остатков. В качестве признаков использовались как одномерные, присущие каждой отдельной аминокислоте, так и попарные признаки, присущие парам аминокислот. Конкатенация данных признаков производилась как описано в статье [4] однако, вместо сцепления признаков i, j и (i+j) / 2, сцеплялись только признаки i и j. Далее к ним добавлялись еще и попарные признаки, увеличивая признаковую глубину датасета. Получившийся датасет пропускали через 19 блоков ResNet и 2 блока BLSTM, после чего получали конечное предсказание.

Последующие одномерные и двумерные признаки были использованы в качестве входных данных:

1. PSSM;

2. Hidden Markov model profile;

3. Предсказанные структурные вероятности;

4. Выходы из CMMPred и DCA.

Для оценивания (за исключением стандартных метрик, таких как F1 score, accuracy и recall) и анализа всех прогнозов были использованы ROC-AUC и кривая PR. Данную модель сравнивали с другими 17 моделями, и она получила лучший результат, превзошедши предыдущую современную модель RaptorX- Contact со значением AUC 0,958.

Статья «Accurate de novo prediction of protein contact map by ultra-deep learning model» [4] предлагает новый подход к предсказанию матрицы контактов белка путем задействования сверхглубокой нейронной сети, состоящей из группы двух остаточных нейронных сетей. Основная идея заключается в использовании одномерной ResNet на последовательных признаках и двумерной ResNet на комбинированных признаках из первой нейронной сети, информации об эволюционной связи и попарного потенциала. Данный метод был сравнен с 6 другими моделями на разных тестовых образцах, и он получил лучший результат среди них. Несколько факторов сыграли огромную роль в конечном полученном результате. Прежде всего, решающее значение имел вывод из CMMPred. Он увеличил общую точность долгосрочного прогноза на 0,15. Кроме того, тесты продемонстрировали всю важность глубокой модели с 60 слоями, которая, по сравнению с поверхностными моделями, позволяла изучать более сложные отношения.

Статья «Improved residue contact prediction using support vector machines and a large feature set» [5] предлагает предсказывать матрицу контактов белка с помощью метода опорных вектором. Данная статья интересна тем, что здесь авторы решили не использовать нейронные сети, а отдать предпочтение методу машинного обучения. Также было использовано пять различных категорий признаков для каждой пары аминокислот, в том числе большое количество статистических признаков. Ознакомится с ними можно по ссылке в приложении. Авторы сравнивали свою модель с архитектурой CMAPpro. В качестве метрик были использованы precision и recall. В итоге, данной модели удалось обойти CMAPpro, показав улучшение в 4% по сравнению с последней. Благодаря данной статье было решено протестировать готовые модели машинного обучения.

3. Методы

3.1 Данные

Все данные о контактных матрицах белков были выгружены с официального сайта `Protein Data Bank' [5]. Информация, которую мы в дальнейшем использовали в качестве признаков, была получена с использованием инструмента `Scratch Protein Predictor' [6].

В силу нехватки локальных вычислительных мощностей, эксперименты проводились на бесплатных серверах Google Colab и Kaggle. По этой же причине было принято решение уменьшить рассматриваемую выборку белков в пределы от 25 до 40 аминокислот в последовательности. Для сравнения алгоритмов, этого предела более чем достаточно. После предобработки мы выделили 486 белков и разделили их на тренировочную, тестовую и валидационную выборки в соответствии 0.7/0.15/0.15.

На Рисунке 3.1. представлено распределение длин последовательностей рассматриваемых белков. Видно, что преобладают последовательности длины 40, но как показали эксперименты, на качестве предсказаний такое небольшое отклонение не сказывается.

На Рисунке 3.2. представлено распределение расстояний между аминокислотами, которые находятся в контакте. Согласно распределению, большинство аминокислот в контакте находятся рядом друг с другом, иными словами, вдоль каркаса. Были проведены эксперименты предсказания матрицы контактов белка на аминокислотах, расстояние между которыми в последовательности больше двух, с целью не учитывать часто встречающиеся контакты, однако данные модели показывали гораздо более низкое качество, вследствие чего было принято решение отказаться от данного подхода.

3.2 Признаки

Было испробовано два различных метода составления признакового описания. В первом методе рассматривались только одномерные признаки, присущие отдельным последовательностям аминокислот. Во втором использовалось попарное представление отдельных остатков в соответствующем белке с несколькими новыми статистическими признаками. Рассмотрим оба подхода более подробно.

В качестве одномерных признаков были выделены следующие:

1. Последовательности аминокислот в белке, закодированные в формате FASTA. Каждая такая последовательность представлена набором букв из 20-ти символьного алфавита.

2. Полярность каждой отдельной аминокислоты. Отвечает за наличие полярных групп, взаимодействующих с водой.

3. Радикал каждой отдельной аминокислоты.

4. PSSM матрица (позиционная весовая матрица). Матрица вероятностного распределения аминокислот в белке.

5. Предсказанные вторичные структуры белка.

6. Доступность растворителей.

Так как большинство признаков, за исключением PSSM, категориальные, они были закодированы с помощью LabelEncoder. В итоге был получен датасет размера Lx56, где L - количество аминокислот в белке. Его мы в дальнейшем будем называть «Датасет 1». В нашем случае L = 40, так как это максимальная длина последовательности белка, которая была рассмотрена. Чтобы привести все последовательности к одному размеру, был использован подход нулевого дополнения. Он заключается в добавлении нулевых векторов к тем последовательностям, длина которых меньше максимально допустимой, то есть меньше 40.

В качестве попарных признаков была добавлена матрица вероятности того, что две аминокислоты находятся в контакте, то есть расстояние между ними меньше 8 В. Данный признак был выделен в статье [6]. Рассматривались только аминокислоты, расстояние между которыми в последовательности было больше 6. Данная вероятность вычислялась статически как число пар аминокислот в контакте, деленное на общее количество таких пар.

где Contact (A, B) отвечает за число раз, которое аминокислоты A и B находились в контакте, а NonContact (A, B) отвечает за число раз, которое аминокислоты A и B не были в контакте.

Также в попарные признаки были добавлены: информация о длине конкретного белка и расстояние между рассматриваемыми аминокислотами в последовательности. Для получения попарных признаков была необходима конкатенация одномерных признаков. Данная операция производилась как было описано в статье [4], то есть присоединением признаков i и j аминокислот. К полученному датасету были прибавлены соответствующие попарные признаки, в результате чего размер получившегося датасета оказался равен [LxL]x115, при L = 40. Данный датасет мы будем в дальнейшем называть «Датасет 2».

3.3 Архитектуры

В качестве готовых моделей машинного обучения были использованы CatBoost classifier, XGBoost classifier и Logistic Regression. Дадим краткую характеристику каждого метода.

CatBoost - решение, предложение компанией Yandex, в основе которого лежит градиентный бустинг. С помощью CatBoost возможно как решать задачи классификации, так и задачи регрессии. Показывает хорошие результаты даже в сравнении с довольно сложными нейронными архитектурами.

XGBoost - работа Вашингтонского Университета. Это алгоритм машинного обучения, в основе которого тоже лежит градиентный бустинг. Так же, как и Catboost, данная модель может решать задачи классификации и регрессии. В некоторых случаях лучше нейронных сетей работает со структурированными данными, а также до сих пор держит лидерство в соревнованиях Kaggle.

Logistic Regression - основная идея заключается в нахождении гиперплоскости, разделяющей признаковое пространство. Модель возвращает вероятность принадлежности объекта к положительному, в случае бинарной классификации, классу. Далее, с помощью выбранного порога, выбираются самые уверенные предсказания.

Все нейросетевые модели были реализованы с помощью библиотеки Keras. В качестве архитектур нейронных сетей были предложены следующие:

1. CNN или Convolutional Neural Network (сверточная нейронная сеть). Эта архитектура крайне популярна при решении задач, связанных с работой с изображениями, так как позволяет выделять пространственные зависимости с помощью скользящих фильтров, а также способна уменьшать количество параметров.

Рис. 3.3 Пример CNN

В нашей задаче данная архитектура хорошо подходит для «Датасета 1», так как позволяет выявить пространственные зависимости между соседними аминокислотами. В результате экспериментов было выявлено, что меньшее количество слоев позволяет улучшить качество предсказания. Добавление полносвязных слоев в конец ухудшало конечные результаты, поэтому конечная модель представлена без них. Данная архитектура тестировалась на «Датасете 1». Она послужила бейзланом в данной работе.

Подробнее с архитектурой можно ознакомиться в приложении.

2. Второй архитектурой является ResNet. Ее выбор был обоснован тем фактом, что она является более глубокой версией CNN (с большим количеством слоев). Благодаря ее остаточным блокам решается проблема затухания градиента с ростом количества слоев, что позволяет писать более глубокую нейросеть и выявлять больше скрытых закономерностей. Данная архитектура построена на чередовании остаточных блоков и “bottleneck” блоков. Последние позволяют уменьшать размерность датасета. По результатам экспериментов, было решено добавить полносвязный слой в конец модели.

Подробнее с архитектурой можно ознакомиться в приложении.

Рис. 3.4 Пример остаточного блока и bottleneck блока

3. Третьей архитектурой является LSTM (Long Short Term Memory) сеть. LSTM сеть является разновидностью рекуррентных нейронных сетей, которые особенно хорошо справляются с задачами выявления закономерностей в последовательностях путем передачи выхода со слоя обратно в слой на следующий шаг. Достоинством LSTM сетей является еще и тот факт, что, в отличие от обычных рекуррентных сетей, данная сеть позволяет избавиться от проблемы затухания градиента с помощью LSTM блока, который регулирует то, какие данные необходимо запомнить, а какие удалить. В нашей задаче выбор данной архитектуры был обоснован тем, что на вход модели подаются последовательности аминокислот, то, с чем хорошо справляются рекуррентные нейронные сети.

Подробнее с архитектурой можно ознакомиться в приложении.

4. Четвертой архитектурой была выбрана Bidirectional LSTM. Идея данной архитектуры заключается в наличии двух одинаковых LSTM, которые идут в противоположные стороны по отношению друг к другу, то есть учитывается проход в обе стороны последовательности. Это позволяет лучше учитывать признаки первых аминокислот в последовательности при обучении на последних аминокислотах и наоборот.

Подробнее с архитектурой можно ознакомиться в приложении.

Рис. 3.6 Пример Bidirectional LSTM

5. Пятой архитектурой была выбрана гибридная сеть, состоящая из ResNet и Bidirectional LSTM. Похожая архитектура была реализована в статье [3], где такой подход показал достойные результаты на датасете, состоящем из попарных признаком аминокислот. С помощью ResNet возможно выявить глубоколежащие пространственные зависимости и уменьшить размерность датасета, Bidirectional LSTM поможет выявить зависимости в последовательности. Данная архитектура тестировалась на двух составленных датасетах.

Подробнее с архитектурой можно ознакомиться в приложении.

6. Шестой архитектурой был выбран гибрид ConvlD + Bidirectional LSTM. В данном случае логика выбора такой архитектуры схожа с предыдущем случаем. Единственная разница заключается в наличии слоя ConvlD вместо ResNet блока.

Подробнее с архитектурой можно ознакомиться в приложении.

4. Результаты

4.1 Метрики

В качестве метрик были выбраны recall, precision и F1 score, так как они являются основными метриками на CASP.

Precision показывает долю правильно отнесенных к положительному классу объектов относительно всех объектов, которые классификатор отнес к положительному классу.

Recall показывает долю найденных объектов положительного класса относительно реального количества объектов положительного класса.

F1 score является более устойчивой к несбалансированным классам и вычисляется следующим образом:

Где tp, fp, fn, tn означают количество правильно предсказанных объектов положительного класса, неправильно предсказанных объектов отрицательного класса, неправильно предсказанных объектов положительного класса и правильно предсказанных объектов отрицательного класса соответственно. Визуально это можно увидеть в таблице ниже.

Predicted Class P N

True

False

р

Positives

Negatives

Actual

(TP)

(FN)

Class

False

True

N

Positives

Negatives

(FP)

(TN)

Рис. 4.1 Матрица ошибок

В силу того, что для тестовой выборки возвращается n-ое количество датасетов, и для каждого такого датасета необходимо вычислять приведенные выше метрики, было принято решение воспользоваться системой оценивания CASP. Все предсказания модели сортируются по вероятности принадлежности объекта к положительному классу, то есть вероятности того, что аминокислоты находятся в контакте. Далее рассматриваются 4 промежутка: L, L/2, L/5, L/10, где L - количество предсказаний. На каждом таком промежутке вычисляются метрики precision, recall и fl. Эта система оценивания хороша тем, что она показывает не только общую точность предсказания, но и то, насколько точны самые уверенные прогнозы. Это будет особенно важно в дальнейшем, при воссоздании трехмерной структуры белка.

4.2 Результаты

Все расчеты проводились на бесплатных серверах Google Colab и Kaggle. В качестве функционала ошибки было принято взять “binary cross-entropy loss”. Оптимизировались модели с помощью Adam.

В качестве готовых моделей машинного обучения были рассмотрены следующие:

• CatBoost Classifier

• XGBoost Classifier

• Logistic Regression

Данные модели тестировались на «Датасете 2». В него входили только попарные признаки. Готовые модели машинного обучения не тестировались на «Датасете 1» в связи с невозможностью корректной подачи данных на вход.

В качестве нейронных архитектур были протестированы следующие модели:

• Bidirectional LSTM на «Датасете 1»

• CNN на «Датасете 1»

• ResNet + Bidirectional LSTM на «Датасете 1» и «Датасете 2»

• ResNet на «Датасете 1»

• Conv1D + Bidirectional LSTM на «Датасете 1»

• LSTM на «Датасете 1»

Ниже представлены сами результаты исследования. Результаты по метрике F1:

Таблица 4.1

Результаты по метрике F1

Модель

L

L/2

L/5

L/10

CNN

0.744203

0.758577

0.863153

0.972388

LSTM

0.740643

0.754162

0.865148

0.973314

BiLSTM

0.771729

0.779323

0.855105

0.980392

ResNet

0.761729

0.773674

0.850789

0.973407

ConvlD + BiLSTM

0.764706

0.772076

0.852714

0.979844

ResNet + BiLSTM

0.774625

0.785463

0.864245

0.980666

ResNet + BiLSTM

(pairwise)

0.791192

0.801294

0.865514

0.975899

Catboost

0.779804

0.786592

0.86586

0.989799

XGBoost

0.785196

0.791615

0.869489

0.98953

Logistic Regression

0.637077

0.662748

0.741596

0.874704

На основании результатов, представленных в таблице выше, можно сделать однозначный вывод, что обучение на «Датасете 2» с попарными признаками аминокислот показывает более высокую точность, нежели обучение на «Датасете 1». Лучший результат показали модели CatBoost, XGBoost и гибрид из ResNet и Bidirectional LSTM. Также стоит выделить тот факт, что архитектуры с Bidirectional LSTM в среднем показывают результаты лучше, чем другие нейронные архитектуры.

Результаты по метрике Precision:

Таблица 4.2

Результаты по метрике precision

Модель

L

L/2

L/5

L/10

CNN

0.88879

0.88879

0.88879

0.946259

LSTM

0.900399

0.900399

0.900399

0.948015

BiLSTM

0.879008

0.879008

0.879008

0.961538

ResNet

0.857814

0.857814

0.857814

0.948191

ConvlD + BiLSTM

0.862004

0.862004

0.862004

0.960485

ResNet + BiLSTM

0.874562

0.874562

0.874562

0.962065

ResNet + BiLSTM

(pairwise)

0.863538

0.863538

0.863538

0.952933

Catboost

0.908456

0.908456

0.908456

0.979803

XGBoost

0.910235

0.910235

0.910235

0.979276

Logistic Regression

0.768555

0.768555

0.768555

0.777309

По метрике Precision лидерство уверенно удерживает модель машинного обучения XGBoost. Это доказывает тот факт, что готовые модели машинного обучения недооценены в настоящее время несмотря на то, что могут показывать достойный результат на структурированных данных, обходя в точности нейронные архитектуры.

Стоит выделить, что среди нейронных архитектур лидирует LSTM. Учитывая не самые высокие результаты по метрике F1, можно сделать вывод, что данная архитектура аккуратнее всех делает свои предсказания. Обычная CNN так же показала довольно хорошую точность, из чего следует, что простые архитектуры захватывают меньше глубоко лежащих зависимостей, но при этом более уверены в своих предсказаниях.

Результаты по метрике Recall:

Таблица 4.3

Результаты по метрике recall

Модель

L

L/2

L/5

L/10

CNN

0.640077

0.661642

0.838954

1

LSTM

0.629034

0.648789

0.832553

1

BiLSTM

0.687788

0.699945

0.832468

1

ResNet

0.685001

0.704566

0.843878

1

ConvlD + BiLSTM

0.687145

0.699138

0.843622

1

ResNet + BiLSTM

0.695186

0.712841

0.854169

1

ResNet + BiLSTM

(pairwise)

0.730031

0.74742

0.867499

1

Catboost

0.683071

0.693555

0.82708

1

XGBoost

0.690361

0.700348

0.832235

1

Logistic Regression

0.544012

0.582549

0.716464

1

По метрике Recall лучшие результаты показал гибрид ResNet и Bidirectional LSTM на «Датасете 2».

Из приведенных выше результатов можно сделать вывод, что комбинирование рекуррентных и сверточных архитектур дает значительно более высокую точность по сравнению с отдельными архитектурами. Также готовые модели машинного обучения показывают хорошее качество, несмотря на их непопулярность при решении задач в данной области.

О 5 10 15 20 25 30 35

Рис. 4.2 Настоящая матрица контактов (слева) и контактов (справа)

Рис. 4.3 Сравнение двух матриц контактов

Ниже представлен пример матрицы контактов, предсказанной гибридом из ResNet и Bidirectional LSTM, на примере белка `1CBH'.

На Рисунке 4.3 представлено наложение настоящей матрицы контактов на предсказанную. Темно-коричневым цветом выделены контакты, которые были предсказаны верно, светло-коричневым цветом выделены контакты, которые наша модель не смогла корректно предсказать, синим цветом выделены контакты, на которых наша модель ошибочно сделала предсказание.

Рис. 4.4 Матрица ошибок

Исходя из матрицы ошибок, можно сделать вывод, что разработанная модель способна делать довольно точные предсказания, обучаясь на сравнительно небольшой выборке.

Заключение

Предсказание структуры белка является одной из самых обсуждаемых задач в биоинформатике на сегодняшний день. Обладая данной информацией, возможно наиболее эффективно создавать новые лекарственные препараты и не только. К сожалению, предсказание структуры белка с высокой точностью является крайне затруднительной задачей.

Матрица контактов несет в себе важную информацию об ограничениях на структуру белка, что может помочь восстановить трехмерную модель протеина с достаточной точностью.

В данной работе представлены исследования в области предсказания матрицы контактов белка с помощью моделей машинного обучения. Было достигнуто достаточно высокое качество предсказания с помощью гибрида нейросетевых архитектур ResNet и BiLSTM с результатом 0.79 на метрике F1. Также было показано превосходство датасета, содержащего попарные признаки аминокислот в сравнении с датасетом, содержащим признаки каждой отдельной аминокислоты. Нельзя оставить без внимания тот факт, что стандартные модели машинного обучения, такие как CatBoost и XGBoost, так же показали достойное качество.

Дальнейшие перспективы данной работы включают в себя расширение признакового описания и эксперименты с более длинными последовательностями аминокислот.

Источники

1. Qian B. et al. High-resolution structure prediction and the crystallographic phase problem // Nature. 2007. vol. 450, number 7167. p. 259-264.

2. Greene L. et al. The CATH domain structure database: new protocols and classification levels give a more comprehensive resource for exploring evolution // Nucleic Acids Research. 2007. vol. 35, number Database. p. D291-D297.

3. Duarte J. et al. Optimal contact definition for reconstruction of Contact Maps // BMC Bioinformatics. 2010. vol. 11, number 1.

4. Konopka B. et al. Automated Procedure for Contact-Map-Based Protein Structure Reconstruction // The Journal of Membrane Biology. 2014. vol. 247, number 5. p. 409-420.

5. Vassura M. et al. FT-COMAR: fault tolerant three-dimensional structure reconstruction from protein contact maps // Bioinformatics. 2008. vol. 24, number 10. p. 1313-1315.

6. Berman H. et al. The worldwide Protein Data Bank (wwPDB): ensuring a single, uniform archive of PDB data // Nucleic Acids Research. 2007. vol. 35, number Database. p. D301-D303.

7. Magnan C., Baldi P. SSpro/ACCpro 5: almost perfect prediction of protein secondary structure and relative solvent accessibility using profiles, machine learning and structural similarity // Bioinformatics. 2014. vol. 30, number 18. p. 2592-2597.

8. Xie J. et al. Advances in Protein Contact Map Prediction Based on Machine Learning // Medicinal Chemistry. 2015. vol. 11, number 3. p. 265-270.

9. Wang Y. et al. Protein contact map prediction using bi-directional recurrent neural network [online] // arXiv.org. 2020. URL: https://arxiv.org/abs/1906.04527 (accessed: 13. 05. 2020).

10. Hanson J. et al. Accurate prediction of protein contact maps by coupling residual two-dimensional bidirectional long short-term memory with convolutional neural networks // Bioinformatics. 2018.

1. Wang S. et al. Accurate De Novo Prediction of Protein Contact Map by UltraDeep Learning Model // PLOS Computational Biology. 2017. vol. 13, number p. e1005324.

11. Cheng J., Baldi P. Improved residue contact prediction using support vector machines and a large feature set // BMC Bioinformatics. 2007. vol. 8, number 1.

12. Abu-Doleh A., Al-Jarrah O., Alkhateeb A. Protein contact map prediction using multi-stage hybrid intelligence inference systems // Journal of Biomedical Informatics. 2012. vol. 45, number 1. p. 173-183.

13. Luttrell J. et al. Predicting protein residue-residue contacts using random forests and deep networks // BMC Bioinformatics. 2019. vol. 20, number S2.

14. Torrisi M., Pollastri G., Le Q. Deep learning methods in protein structure prediction // Computational and Structural Biotechnology Journal. 2020.

15. Team K. Keras documentation: The Functional API [online] // Keras.io. 2020. URL: https://keras.io/guides/functional_api/.

16. Deshpande A. A Beginner's Guide To Understanding Convolutional Neural Networks [online] // Adeshpande3.github.io. 2020. URL: https://adeshpande3.github.io/adeshpande3.github.io/A-Beginner's-Guide-To- Understanding-Convolutional-Neural-Networks/.

17. Building a ResNet in Keras [online] // Medium. 2020. URL: https://towardsdatascience.com/building-a-resnet-in-keras-e8f1322a49ba.

19.7 Types of Activation Functions in Neural Networks: How to Choose? [online] // MissingLink.ai. 2020. URL: https://missinglink.ai/guides/neura.1 -networkconcepts/7 -types-neural -network-acti vati on -functi ons-ri ght/.

Приложение

Для возможности визуализации архитектур был изменен выходной полносвязный слой. В оригинале выход модели представляет из себя множество выходных слоев с двумя нейронами. Таким образом мы получаем предсказание на каждую ячейку в матрице контактов.

7.1. CNN

7.2 ResNet

7.3 LSTM

Bidirectional LSTM

7.5. ResNet + Bidirectional LSTM

7.6. ConvlD + Bidirectinal LSTM

Размещено на Allbest.ru

...

Подобные документы

  • Искусственные нейронные сети как одна из широко известных и используемых моделей машинного обучения. Знакомство с особенностями разработки системы распознавания изображений на основе аппарата искусственных нейронных сетей. Анализ типов машинного обучения.

    дипломная работа [1,8 M], добавлен 08.02.2017

  • Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.

    курсовая работа [3,9 M], добавлен 22.10.2012

  • Человеко-машинный интерфейс. Текстовый и смешанный (псевдографический) интерфейсы. Применение человеко-машинного интерфейса в промышленности. Программные средства для разработки человеко-машинного интерфейса. Среда разработки мнемосхем GraphworX32.

    дипломная работа [5,3 M], добавлен 19.03.2010

  • Инструменты компьютерной визуализации. Реализация и применение технологии обработки информации. Разработка инфологической структуры. Анализ эффективности применения инфологических моделей на информационных порталах и в средствах электронной коммерции.

    дипломная работа [7,3 M], добавлен 29.11.2015

  • Історія машинного перекладу як науково-прикладного напряму. Теорія машинного перекладу. Особливості використання систем, орієнтованих на персональні комп’ютери. Напрямки розвитку та застосування машинного перекладу. Приклади систем машинного перекладу.

    реферат [21,5 K], добавлен 19.02.2011

  • Популярность алгоритмов машинного обучения для компьютерных игр. Основные техники обучения с подкреплением в динамической среде (компьютерная игра "Snake") с экспериментальным сравнением алгоритмов. Обучение с подкреплением как тип обучения без учителя.

    курсовая работа [1020,6 K], добавлен 30.11.2016

  • Machine Learning как процесс обучения машины без участия человека, основные требования, предъявляемые к нему в сфере медицины. Экономическое обоснование эффективности данной технологии. Используемое программное обеспечение, его функции и возможности.

    статья [16,1 K], добавлен 16.05.2016

  • История автоматизированного перевода. Современные компьютерные программы перевода. Сфера использования машинного перевода. Формы организации взаимодействия человека и ЭВМ в машинном переводе. Интерредактирование и постредактирование машинного перевода.

    курсовая работа [30,0 K], добавлен 19.06.2015

  • Понятие сетей Петри, их применение и возможности. Сетевое планирование, математические модели с использованием сетей Петри. Применение сетевых моделей для описания параллельных процессов. Моделирование процесса обучения с помощью вложенных сетей Петри.

    курсовая работа [1,0 M], добавлен 17.11.2009

  • Создание системы предобработки данных; разработка системы классификации на базе методов и алгоритмов машинного обучения, их реализация в программной системе. Предобработка информации, инструкция пользователя, система классификации, машинный эксперимент.

    дипломная работа [917,1 K], добавлен 31.01.2015

  • Понятие базы знаний для управления метаданными. Особенности баз знаний интеллектуальной системы. Языки, используемые для разработки интеллектуальных информационных систем. Классические задачи, решаемые с помощью машинного обучения и сферы их применения.

    реферат [16,9 K], добавлен 07.03.2010

  • Применение современных компьютерных технологий в процессе обучения иностранным языкам. Использование Интернет-ресурсов, скайпа, социальных сетей в обучении и интернет-сайта для поиска дополнительно новой информации. Общение онлайн с носителями языка.

    статья [15,8 K], добавлен 23.06.2015

  • Оценка качества подготовки программистов и снижение трудозатрат на подготовку и проверку их лабораторных работ. Разработка проекта по автоматизации процесса обучения программированию с помощью интегрированной среды оценки структуры и качества программы.

    дипломная работа [2,5 M], добавлен 07.06.2012

  • Принципы компьютерной стеганографии. Классификация методов сокрытия информации. Популярность метода замены наименьшего значащего бита. Сущность методов расширения палитры и блочного сокрытия. Применение методов в GIF изображениях. Реализация алгоритмов.

    курсовая работа [589,7 K], добавлен 17.02.2013

  • Получение навыков работы в Mathcad при использовании интерполяции и регрессии. Постройте функции сглаживания и предсказания данных с помощью различных встроенных функций. Применение операций как калькулятор, математический анализ, матрица и вычисление.

    лабораторная работа [205,1 K], добавлен 23.12.2014

  • История возникновения, эволюция машинного перевода. Основные требования к коммуникативной эквивалентности. Последовательность формальных операций в системе машинного перевода, ее концепции развития. Переводчик для офиса. Преимущества электронных словарей.

    презентация [455,3 K], добавлен 22.10.2013

  • Использование классификаторов машинного обучения для анализа данных. Создание модели, которая на основании параметров, влияющих на течение диабета, выявляет показатель возвращения больного в ухудшенное состояния после оказанного лечения (реадмиссию).

    дипломная работа [625,2 K], добавлен 10.06.2017

  • Автоматизований та машинний види перекладу. Можливості подолання мовного бар’єру у спілкуванні. Існуючі класифікації систем машинного перекладу. Лінгвістичне дослідження міри автоматизованості перекладацької системи. Словник і синтаксис вхідної мови.

    статья [23,5 K], добавлен 14.08.2017

  • Получение и обработка данных о веб-сайте. Иерархическая классификация, алгоритмы машинного обучения. Решающие деревья, плоские классификаторы. Метрики оценки качества. Полная точность (accuracy), кросс-валидация. Параллельные вычисления, хранение данных.

    курсовая работа [276,8 K], добавлен 04.09.2016

  • Виды машинного обучения, его основные задачи и методы. Подходы к классификации: логистическая регрессия, наивный байесовский классификатор, стохастический градиентный спуск, K-ближайший сосед, дерево решений, случайный лес, метод опорных векторов.

    курсовая работа [436,9 K], добавлен 14.12.2022

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.