Главная Коллекция "Revolution" Программирование, компьютеры и кибернетика Применение методов машинного обучения для предсказания пространственной структуры белков

Применение методов машинного обучения для предсказания пространственной структуры белков

Предсказание трехмерной структуры белка. Предсказание матрицы контактов белка с помощью информации об ограничениях, содержащейся в матрице контактов. Применение моделей машинного обучения XGBoost, CatBoost, Logistic Regression, CNN, ResNet, BiLSTM, LSTM.

Рубрика	Программирование, компьютеры и кибернетика
Вид	дипломная работа
Язык	русский
Дата добавления	25.08.2020
Размер файла	1,9 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ФКН НИУ ВШЭ

ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА

на тему Применение методов машинного обучения для предсказания пространственной структуры белков

Выполнил студент группы 164, 4 курса,

Цхай Борис Витальевич

Руководитель ВКР: д. ф.-м.н., профессор

Посыпкин Михаил Анатольевич

Оглавление

1. Введение

1.1 Описание задачи

1.2 Цели работы

1.3 Краткое описание проделанной работы

2. Краткий обзор существующих подходов

3. Методы

3.1 Данные

3.2 Признаки

3.3 Архитектуры

4. Результаты

4.1 Метрики

4.2 Результаты

5. Заключение

6. Источники

7. Приложение

7.1 CNN

7.2 ResNet

7.3 LSTM

7.4 Bidirectional LSTM

7.5 ResNet + Bidirectional LSTM

7.6 Conv1D + Bidirectinal LSTM

Аннотация

Предсказание трехмерной структуры белка является одной из самых обсуждаемых проблем в биоинформатике на данный момент. Знание структуры необходимо для понимания функциональности белка, что в свою очередь может помочь в борьбе с болезнями, против которых не существует лекарственных препаратов. Целью данной работы является предсказание матрицы контактов белка. С помощью информации об ограничениях, содержащейся в матрице контактов, возможно, под определенными обстоятельствами, реконструировать трехмерную структуру белка с высокой точностью, благодаря тому факту, что данная матрица является двумерным представлением белка. В ходе работы были рассмотрены различные модели машинного обучения (XGBoost, CatBoost, Logistic Regression, CNN, ResNet, BiLSTM, LSTM). Как результат, удалось достичь значения 0.79 на метрике F1, используя гибрид, состоящий из ResNet и BiLSTM.

Список ключевых слов Матрица контактов белка, нейронные сети, машинное обучение, сворачивание белка.

Abstract

машинный белок информация матрица

The prediction of the three-dimensional structure of the protein is one of the most discussed problems in bioinformatics at the moment. Knowledge of the structure is necessary for understanding the functionality of the protein, which in turn can help in the fight against diseases against which there are no drugs. The aim of this work is to predict the protein contact map. Using the information on the limitations contained in the contact map, it is possible, under certain circumstances, to reconstruct the threedimensional structure of the protein with high accuracy, due to the fact that this matrix is a two-dimensional representation of the protein. In the course of work, various machine learning models were considered (XGBoost, CatBoost, Logistic Regression, CNN, ResNet, BiLSTM, LSTM). As a result, it was possible to achieve a value of 0.79 on the F1 metric using a hybrid consisting of ResNet and BiLSTM.

1. Введение

Белок является одной из важнейших макромолекул, обладающих широким разнообразием функций и играющих огромную роль во всех живых организмах. Обычно в структуре белков выделяют 20 различных аминокислот. Множество их всевозможных комбинаций образуют молекулы белков, каждая из которых выполняет свою функцию. Так, некоторые из них играют важную роль в обмене веществ, другие могут выполнять механическую функцию поддержания формы клеток и так далее. Все их функциональные свойства напрямую зависят от трехмерной структуры синтезированного белка. Имея представление о структуре определенного белка, становится возможным эффективная разработка лекарственных препаратов. Процесс формирования данной структуры называется сворачиванием белка. Он состоит из трех основных этапов:

1. Первичная структура - линейная последовательность аминокислот, не обладающая какой-либо устойчивой формой.

2. Вторичная структура - первый шаг сворачивания на пути к естественной структуре белка. Линейные последовательности аминокислот, полученные на первом этапе, при взаимодействии друг с другом образуют одну из двух вторичных структур: альфа спирали или бета листы.

3. Третичная структура - в процессе взаимодействия вторичных структур образовывается устойчивая трехмерная структура белка.

Рис. 1.1 Процесс формирования структуры белка

Эта связь между уникально сложенной трехмерной структурой белка и его функциональностью вызывает необходимость изучения структуры белка для понимания его функционального механизма. Существует несколько экспериментальных методов разрешения поставленной задачи [1][2], однако все они требуют довольно больших затрат, в том числе и временных, и имеют целый ряд других сложностей, поэтому предпочтение отдается вычислительным методам. Предсказывать структуру белка, основываясь только на последовательности аминокислот, довольно тяжело, поэтому для упрощения этого процесса было предложено, в первую очередь, разбить его на подзадачи.

1.1 Описание задачи

Одной из подзадач является предсказание матрицы контактов белка. Она представляет собой бинарную симметричную матрицу, в каждой ячейке которой стоит 0 или 1 в зависимости от того, находятся ли рассматриваемые аминокислоты в контакте. Принято, что две аминокислоты в последовательности находятся в контакте, если расстояние между ними меньше 8 В. Матрица контактов белка является упрощенным представлением трехмерной структуры протеина, вследствие чего содержит в себе важную информацию об его структурных ограничениях. Благодаря двумерной матрице контактов становится возможным с довольно хорошей точностью реконструировать трехмерную структуру белка [3][4].

1.2 Цели работы

В рамках данной работы предлагается исследовать различные методы предсказания матрицы контактов белка, включая стандартные модели машинного обучения и нейронные архитектуры, а также выявить определенные закономерности, от которых может зависеть качество прогнозирования.

1.3 Краткое описание проделанной работы

Всего было испробовано: три готовые модели машинного обучения и шесть архитектур нейронных сетей. Были протестированы два различных датасета, один из которых состоит из признаков отдельных аминокислот, другой содержит в себе признаки для пар аминокислот. Лучший результат показал гибрид из ResNet и BiLSTM с результатом в 0.79 на метрике F1.

Все исследование проводилось на языке Python версии 3.8.1. Для построения нейросетевых моделей использовалась библиотека Keras. Все вычисления происходили на бесплатных серверах Google Colab и Kaggle.

2. Краткий обзор существующих подходов

Цель этой главы - кратко описать существующие методологии прогнозирования матрицы контактов белка.

Статья «Advances in protein contact map prediction based on machine learning» [1] наглядно показывает, почему предсказание белковой матрицы контактов является важной подзадачей, какие методы и подходы существуют для разрешения проблемы и каких результатов следует ожидать. Матрица контактов содержит значительный блок информации касательно структуры белков, что может помочь восстановить трехмерную модель с достаточной точностью. Это не удивительно, так как матрица контактов, по существу, является двумерным представлением структуры белка, где два остатка можно считать находящимися в контакте, если расстояние между ними менее 8 В.

Методы прогнозирования можно разделить на три класса:

1. Алгоритмы машинного обучения, включающие в себя нейронные сети, скрытые Марковские модели и т.д.;

2. Основанные на шаблонах методы, сильно зависящие от количества гомологов;

3. Эволюционные информационные модели.

Для того, чтобы дать оценку тому или иному методу, обычно используются следующие метрики: accuracy, F1, precision, recall и коэффициент корреляции Мэтьюса.

Однако, в заключение, хотелось бы сказать, что несмотря на прогресс в данной области, все существующие методы имеют низкое качество предсказания на средних и дальних контактах.

Статья «Protein contact map prediction using bidirectional recurrent neural network» [2] предлагает решить проблему прогнозирования белковой матрицы контактов с помощью двунаправленной RNN. Выбор данной архитектуры основан на том факте, что она крайне хорошо работает с информацией, представленной в виде последовательности, а тот факт, что рекуррентная сеть двунаправленная, помогает выделять зависимости с двух концов белковой цепи. Также интересный момент данной статьи заключается в том, что для тренировочной выборки был взят меньший порог, равный 4.5 В. Это означает, что два остатка можно считать контактирующими, если расстояние между ними меньше 4.5 В. Такой подход позволяет повысить точность финального прогноза, несмотря на уменьшение числа образцов положительного класса. Еще одним важным моментом, который необходимо упомянуть, является вход в сеть, так как единственная функция, которая была использована, - сама аминокислотная последовательность. Что касается образцов, 8646 белков из банка данных белков были использованы в качестве тренировочных, проверочных и испытательных образцов.

Для измерения результатов модели были использованы следующие метрики:

1. Accuracy;

2. AUC-ROC;

3. False positive rate;

4. False negative rate.

Получившаяся конечная модель, сумела достигнуть точности равной 0,80.

Статья «Accurate prediction of protein contact maps by coupling residual two-dimensional bidirectional long short-tern memory with convolutional neural networks» [3] покрывает проблему предсказывания матрицы контактов белка путем использования сверхглубокой гибридной сети, состоящей из ResNet в сочетании с 2D-BRLSTM. Преимущество этого подхода заключается в том, что такая архитектура позволяет захватывать контекстную информацию на каждом слое, что, в свою очередь, делает возможным получение лежащих в основе отношений между нелокальными парами остатков. В качестве признаков использовались как одномерные, присущие каждой отдельной аминокислоте, так и попарные признаки, присущие парам аминокислот. Конкатенация данных признаков производилась как описано в статье [4] однако, вместо сцепления признаков i, j и (i+j) / 2, сцеплялись только признаки i и j. Далее к ним добавлялись еще и попарные признаки, увеличивая признаковую глубину датасета. Получившийся датасет пропускали через 19 блоков ResNet и 2 блока BLSTM, после чего получали конечное предсказание.

Последующие одномерные и двумерные признаки были использованы в качестве входных данных:

1. PSSM;

2. Hidden Markov model profile;

3. Предсказанные структурные вероятности;

4. Выходы из CMMPred и DCA.

Для оценивания (за исключением стандартных метрик, таких как F1 score, accuracy и recall) и анализа всех прогнозов были использованы ROC-AUC и кривая PR. Данную модель сравнивали с другими 17 моделями, и она получила лучший результат, превзошедши предыдущую современную модель RaptorX- Contact со значением AUC 0,958.

Статья «Accurate de novo prediction of protein contact map by ultra-deep learning model» [4] предлагает новый подход к предсказанию матрицы контактов белка путем задействования сверхглубокой нейронной сети, состоящей из группы двух остаточных нейронных сетей. Основная идея заключается в использовании одномерной ResNet на последовательных признаках и двумерной ResNet на комбинированных признаках из первой нейронной сети, информации об эволюционной связи и попарного потенциала. Данный метод был сравнен с 6 другими моделями на разных тестовых образцах, и он получил лучший результат среди них. Несколько факторов сыграли огромную роль в конечном полученном результате. Прежде всего, решающее значение имел вывод из CMMPred. Он увеличил общую точность долгосрочного прогноза на 0,15. Кроме того, тесты продемонстрировали всю важность глубокой модели с 60 слоями, которая, по сравнению с поверхностными моделями, позволяла изучать более сложные отношения.

Статья «Improved residue contact prediction using support vector machines and a large feature set» [5] предлагает предсказывать матрицу контактов белка с помощью метода опорных вектором. Данная статья интересна тем, что здесь авторы решили не использовать нейронные сети, а отдать предпочтение методу машинного обучения. Также было использовано пять различных категорий признаков для каждой пары аминокислот, в том числе большое количество статистических признаков. Ознакомится с ними можно по ссылке в приложении. Авторы сравнивали свою модель с архитектурой CMAPpro. В качестве метрик были использованы precision и recall. В итоге, данной модели удалось обойти CMAPpro, показав улучшение в 4% по сравнению с последней. Благодаря данной статье было решено протестировать готовые модели машинного обучения.

3. Методы

3.1 Данные

Все данные о контактных матрицах белков были выгружены с официального сайта `Protein Data Bank' [5]. Информация, которую мы в дальнейшем использовали в качестве признаков, была получена с использованием инструмента `Scratch Protein Predictor' [6].

В силу нехватки локальных вычислительных мощностей, эксперименты проводились на бесплатных серверах Google Colab и Kaggle. По этой же причине было принято решение уменьшить рассматриваемую выборку белков в пределы от 25 до 40 аминокислот в последовательности. Для сравнения алгоритмов, этого предела более чем достаточно. После предобработки мы выделили 486 белков и разделили их на тренировочную, тестовую и валидационную выборки в соответствии 0.7/0.15/0.15.

На Рисунке 3.1. представлено распределение длин последовательностей рассматриваемых белков. Видно, что преобладают последовательности длины 40, но как показали эксперименты, на качестве предсказаний такое небольшое отклонение не сказывается.

На Рисунке 3.2. представлено распределение расстояний между аминокислотами, которые находятся в контакте. Согласно распределению, большинство аминокислот в контакте находятся рядом друг с другом, иными словами, вдоль каркаса. Были проведены эксперименты предсказания матрицы контактов белка на аминокислотах, расстояние между которыми в последовательности больше двух, с целью не учитывать часто встречающиеся контакты, однако данные модели показывали гораздо более низкое качество, вследствие чего было принято решение отказаться от данного подхода.

3.2 Признаки

Было испробовано два различных метода составления признакового описания. В первом методе рассматривались только одномерные признаки, присущие отдельным последовательностям аминокислот. Во втором использовалось попарное представление отдельных остатков в соответствующем белке с несколькими новыми статистическими признаками. Рассмотрим оба подхода более подробно.

В качестве одномерных признаков были выделены следующие:

1. Последовательности аминокислот в белке, закодированные в формате FASTA. Каждая такая последовательность представлена набором букв из 20-ти символьного алфавита.

2. Полярность каждой отдельной аминокислоты. Отвечает за наличие полярных групп, взаимодействующих с водой.

3. Радикал каждой отдельной аминокислоты.

4. PSSM матрица (позиционная весовая матрица). Матрица вероятностного распределения аминокислот в белке.

5. Предсказанные вторичные структуры белка.

6. Доступность растворителей.

Так как большинство признаков, за исключением PSSM, категориальные, они были закодированы с помощью LabelEncoder. В итоге был получен датасет размера Lx56, где L - количество аминокислот в белке. Его мы в дальнейшем будем называть «Датасет 1». В нашем случае L = 40, так как это максимальная длина последовательности белка, которая была рассмотрена. Чтобы привести все последовательности к одному размеру, был использован подход нулевого дополнения. Он заключается в добавлении нулевых векторов к тем последовательностям, длина которых меньше максимально допустимой, то есть меньше 40.

В качестве попарных признаков была добавлена матрица вероятности того, что две аминокислоты находятся в контакте, то есть расстояние между ними меньше 8 В. Данный признак был выделен в статье [6]. Рассматривались только аминокислоты, расстояние между которыми в последовательности было больше 6. Данная вероятность вычислялась статически как число пар аминокислот в контакте, деленное на общее количество таких пар.

где Contact (A, B) отвечает за число раз, которое аминокислоты A и B находились в контакте, а NonContact (A, B) отвечает за число раз, которое аминокислоты A и B не были в контакте.

Также в попарные признаки были добавлены: информация о длине конкретного белка и расстояние между рассматриваемыми аминокислотами в последовательности. Для получения попарных признаков была необходима конкатенация одномерных признаков. Данная операция производилась как было описано в статье [4], то есть присоединением признаков i и j аминокислот. К полученному датасету были прибавлены соответствующие попарные признаки, в результате чего размер получившегося датасета оказался равен [LxL]x115, при L = 40. Данный датасет мы будем в дальнейшем называть «Датасет 2».

3.3 Архитектуры

В качестве готовых моделей машинного обучения были использованы CatBoost classifier, XGBoost classifier и Logistic Regression. Дадим краткую характеристику каждого метода.

CatBoost - решение, предложение компанией Yandex, в основе которого лежит градиентный бустинг. С помощью CatBoost возможно как решать задачи классификации, так и задачи регрессии. Показывает хорошие результаты даже в сравнении с довольно сложными нейронными архитектурами.

XGBoost - работа Вашингтонского Университета. Это алгоритм машинного обучения, в основе которого тоже лежит градиентный бустинг. Так же, как и Catboost, данная модель может решать задачи классификации и регрессии. В некоторых случаях лучше нейронных сетей работает со структурированными данными, а также до сих пор держит лидерство в соревнованиях Kaggle.

Logistic Regression - основная идея заключается в нахождении гиперплоскости, разделяющей признаковое пространство. Модель возвращает вероятность принадлежности объекта к положительному, в случае бинарной классификации, классу. Далее, с помощью выбранного порога, выбираются самые уверенные предсказания.

Все нейросетевые модели были реализованы с помощью библиотеки Keras. В качестве архитектур нейронных сетей были предложены следующие:

1. CNN или Convolutional Neural Network (сверточная нейронная сеть). Эта архитектура крайне популярна при решении задач, связанных с работой с изображениями, так как позволяет выделять пространственные зависимости с помощью скользящих фильтров, а также способна уменьшать количество параметров.

Рис. 3.3 Пример CNN

В нашей задаче данная архитектура хорошо подходит для «Датасета 1», так как позволяет выявить пространственные зависимости между соседними аминокислотами. В результате экспериментов было выявлено, что меньшее количество слоев позволяет улучшить качество предсказания. Добавление полносвязных слоев в конец ухудшало конечные результаты, поэтому конечная модель представлена без них. Данная архитектура тестировалась на «Датасете 1». Она послужила бейзланом в данной работе.