Нейросетевая модель появления и пропадания генов в ходе эволюции

Использование нейросетевых технологий в биологических исследованиях. Модель появления и пропадания генов в ходе эволюции. Новая архитектура нейронной сети, позволяющая оценивать вероятности появления, исчезновения генов на ветвях филогенетического дерева.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 17.01.2018
Размер файла 292,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Нейросетевая модель появления и пропадания генов в ходе эволюции

А.Л. Татузов

Нейронные сети оказываются подходящим инструментом для изучения информации, полученной при секвенирования геномов. Предложена новая архитектура нейронной сети, позволяющая оценивать вероятности появления и исчезновения генов на ветвях филогенетического дерева. В работе приводятся результаты имитации процесса эволюции, подтверждающие правильность модели обучения, а также оценки вероятностей эволюции генов для реальных геномов.

Введение

Расшифровка генома первого живого организма в 1995 году ознаменовало начало новой эры в биологии [Fleischmann et al 1995]. Сегодня в биологических базах данных [Wheeler et al 2005] доступны более 200 разнообразных микробиологических геномов и несколько десятков геномов эукариот (включая геном человека [Lander et al 2001]). Многие из них можно разбить на группы ортологов - потомков одного гена-предка [Fitch 1970]. В 1997 году была предложена процедура организации гомологичных генов в кластеры ортологичных групп (КОГ) [Tatusov 1997], и с ее помощью осуществляется классификация генов для вновь расшифрованных геномов [Tatusov 2003].

В биологических исследованиях широко используются методы анализа, в которых рассматриваются элементарные эволюционные события для получения статистически значимых филогенетических связей. Наиболее часто используются попарные сравнения молекулярных последовательностей. В этом случае традиционный подход предполагает для реконструкции сценария эволюции использовать матрицу попарных расстояний. В литературе описано несколько методов построения таких матриц [Yang 2005]. Они позволяют строить удовлетворительные филогенетические деревья, хотя групповые взаимодействия генов остаются неучтенными, что заставляет искать более адекватные методы для анализа.

Другим вариантом анализа филогенетического процесса является рассмотрение подмножеств организмов, имеющих один из КОГ'ов. При этом чувствительность методов анализа становится ниже, чем при вычислении расстояний между молекулярными последовательностями, но это является закономерной платой за повышение устойчивости.

Предлагается при рассмотрении группы организмов построить множество образов (паттернов), характеризующих каждый присутствующий в них КОГ. Учет вероятностей пропадания и появления КОГ'ов на различных участках филогенетического дерева позволяет оценить частоты его встречаемости совместно у наблюдаемой группы организмов. Сравнение наблюдаемых и рассчитанных частот указывает на правильность выбранной модели и используемого филогенетического дерево, что обеспечивает возможность выбора наилучших моделей и наборов вероятностей пропадания и появления генов. Прямой расчет указанных частот является весьма трудоемким и требует перебора значительного количества вариантов. Еще более сложным является вычисления частных производных для осуществления процесса оптимизации с помощью алгоритма градиентного спуска.

Одним из наиболее перспективных вариантов преодоления указанных трудностей является использование нейросетевых технологий. Способность нейронных сетей решать сложные задачи позволяет надеяться, что их использование позволит провести более адекватный эволюционный анализ. Для снижения объема расчетов предложена нейросетевая интерпретация вычислений, с помощью которой удается получить эффективный расчет как собственно частот, так и построение алгоритма подстройки вероятностей появления и пропадания КОГ'ов на основе обобщенного метода обратного распространения ошибки.

1. Модель появления и пропадания генов в ходе эволюции

ген архитектура нейронный сеть

Рассматривается упрощенная модель эволюции, в которой вероятности пропадания и появления генов в потомках исходного организма считаются постоянными для каждой ветви филогенетического дерева. Исчезновение и возникновение генов в ходе эволюции приводит к их специфическому распределению среди изучаемых организмов.

Ход эволюционного процесса удобно представлять в виде филогенетического дерева. Дерево отображает последовательность разделения видов, начиная от общего организма, проходя через ряд промежуточных предков и заканчивая срезом эволюционного процесса в настоящее время. Ген в ходе эволюции может пропасть у какого-либо из организмов и далее у всех потомков этого организма отсутствовать или отсутствующий ген может появиться у одного из промежуточных организмов. Результат воздействия эволюционного процесса на гены в организмах приводит к образованию специфических паттернов, характерных для каждого из генов. Паттерном является последовательность признаков наличия ("1") или отсутствия ("0") конкретного гена в каждом из организмов.

На основе анализа паттернов для разных генов группы организмов можно судить о ходе эволюционного процесса. Так, если ген отсутствует в подгруппе организмов, объединенных одним поддеревом филогенетического дерева, то можно предположить, что он пропал на ветви, непосредственно предшествовавшей вершине такого поддерева. На самом деле такой подход, конечно, неточен. Динамика наличия генов носит стохастический характер, и ее оценку необходимо проводить с учетом этого, то есть определять вероятности их появления и пропадания на каждой из ветвей дерева.

Рассмотрим вектора, описывающие вероятности появления и пропадания генов на каждой ветви филогенетического дерева, соответственно.

Здесь - это общее количество ветвей в дереве. Удобно ввести у филогенетического дерева узлы с номерами соответствующими номеру входящей в него ветви дерева (рис. 1). При переходе от некоторого узла к следующему, с номером , вероятность появления гена будет равна , а его пропадания -- . Тогда филогенетическое дерево описывает схему возможных изменений признаков наличия гена в ходе эволюции.

Частоты встречаемости различных видов паттернов будут полностью определяться векторами и . Зависимость эта в замкнутом виде представлена быть не может, но для каждого конкретного паттерна можно рассчитать вероятность его появления путем перебора допустимых вариантов комбинаций вероятностей и их дополнений.

Рис. 1. Пример вероятностей появления и пропадания генов на филогенетическом дереве

Возникает задача найти такую пару векторов и , при которой достигается наименьшее отклонение истинных частот присутствия паттернов от рассчитанных вероятностей их появления , то есть минимизировать функцию ошибок

, (1.1)

Для прямого расчета составляющих градиента объем вычислений оказывается столь велик, что становится сомнительной возможность их проведения в разумное время.

Аналогичная проблема возникла в теории нейронных сетей при обучении многослойных персептронов. Одна из наиболее важных идей в теории нейронных сетей состоит в возможности эффективного проведения расчета производных целевой функции по весам с помощью алгоритма backpropagation. Суть этого алгоритма состоит в правильной группировке слагаемых и основанном на этом использовании метода динамического программирования, что снижает количество необходимых операций на порядки.

2. Нейросетевая модель пропадания генов

Предлагается нейросетевая архитектура, позволяющая рассчитывать вероятности появления паттернов и, одновременно, предоставляющая механизм для получения векторов вероятностей и посредством обучения. Действительно, дерево эволюции по своей структуре сильно напоминает топологию нейронной сети, в которой нейронам соответствуют узлы дерева, а синаптическим связям соответствуют его ветви.

В качестве коэффициентов связей будем рассматривать вероятности и . Каждый нейрон, будет содержать величины и , описывающие вероятности появления соответствующей части паттерна (той части, которая расположена ниже рассматриваемого узла) при условии наличия () и отсутствия () гена на данном узле дерева. При этом будем использовать единую индексацию ветвей и узлов дерева, при которой номера ветви и узла дерева, в которую она ведет в направлении эволюционного процесса, совпадают. Понятно, что величина для корня дерева - узла, с которого начинается процесс эволюции всех организмов в группе, будет задавать вероятность появления заданного паттерна.

Предложенная нейросетевая топология позволяет рассчитывать вероятности появления паттернов наличия генов в группе организмов. Алгоритм расчетов, как это свойственно нейросетевым алгоритмам, является рекуррентным. Расчет проводится, начиная от листов-организмов и далее вверх по дереву эволюции по направлению к предкам. Выражения для пересчета величин и на основе их потомков записывается в виде:

, (2.1)

где и индексы ветвей, исходящих из текущего узла .

Рассмотренная нейронная сеть фактически является известной нейросетевой архитектурой многослойного персептрона в несколько обобщенном виде. Вместо используемых в обычном персептроне алгоритмов распространения сигналов используются выражения (2.1). Тем не менее, основные свойства такой сети сохраняются и можно использовать методы обучения этой сети, схожие с методами обучения традиционного многослойного персептрона.

Широко применяемый в нейросетевых технологиях многослойный персептрон имеет архитектуру, изображенную на рисунке 2а.

а) б)

Рис. 2. Архитектура традиционного и обобщенного многослойного персептрона.

Вычислительные операции в этой архитектуре можно описать как преобразование, при котором выход нейронов любого слоя, кроме первого, получается исходя из выходов нейронов предыдущего слоя посредством выражения:

. (2.2)

Обучение многослойного персептрона состоит в подстройке весов (матриц ; ) с целью минимизации ошибки отклонения выходных значений персептрона от желаемых выходов. Для этого используется метод градиентного спуска, в котором предполагается проведение пошагового, итерационного изменения весов в направлении, противоположном градиенту с некоторым шагом.

Наиболее значимым достижением в теории обучения нейронных сетей типа многослойного персептрона является метод обратного распространения ошибки, суть которого заключается в значительном сокращении вычислений при расчете частных производных функционала по внутренним весам сети. Метод использует приемы динамического программирования, запоминая повторяющиеся в вычислениях выражения. Эти значения интерпретируются как ошибки, подлежащие минимизации для внутренних слоев персептрона и распространяются в направлении входов сети.

Подход, использованный при выводе выражений для составляющих градиента многослойного персептрона, может быть применен не только для традиционной архитектуры, но и для сетей более общего вида. На это указывалось еще в ранних работах одного из изобретателей обратного распространения ошибки ЛеКуна (Y. LeCun) [LeCun 1988].

Рассмотрим нейронную сеть в виде обобщенного многослойного персептрона, которая, аналогично традиционной, имеет архитектуру в виде слоев, но в которой выполняемые операции (вместо обычных суммирований входов и нелинейного преобразования суммы в нейроне) заменены многомерным преобразованием общего вида, обозначаемым (см. рис. 2б). В результате закон преобразования выходов нейронов предыдущего слоя в выходы текущего слоя примет вид:

. (2.3)

Здесь - матрица связей нейронов очередного слоя с предыдущим.

Аналогично традиционному многослойному персептрону для обучения используем метод градиентного спуска, в котором рассчитывают градиент этого функционала по весовым коэффициентам сети. Основная задача алгоритма обучения сети состоит в вычислении составляющих градиента по соответствующим весовым коэффициентам.

Рассмотрим эти составляющие последовательно по слоям нейронной сети, начиная с последнего. Так для последнего слоя мы можем записать:

(2.4)

где - это номер нейрона в текущем слое, а - в предыдущем, - элемент с индексами матрицы весов ( слоя весов). После преобразований получим:

(2.5)

Для предпоследнего слоя получим аналогичное (2.5) выражение:

(2.6)

Процесс расчета градиентов продолжается далее с точностью до изменения индексов. То есть, обучение должно проходить в соответствии со стандартной схемой обратного распространения ошибки.

В нашем случае в качестве выхода нейронной сети, реализующей филогенетическое дерево, выступает рассчитанная вероятность появления заданного паттерна, а минимизируемый функционал ошибки есть квадрат отличия реальной этой вероятности от наблюдаемой частоты появления этого паттерна :

(2.7)

Так как предложенная нейросетевая модель имеет архитектуру обобщенного многослойного персептрона, к ней может быть применен обобщенный метод обратного распространения ошибки, описываемый выражениями (2.5), (2.6). С учетом того, что каждый нейрон в модели связан с двумя узлами, расположенными ниже него по дереву эволюции, получим следующий алгоритм адаптации весовых множителей сети:

, (2.8)

, (2.8а)

, (2.9)

. (2.9а)

Вычисления выполняются последовательно, начиная от самого корня дерева и заканчивая листьями. Соотношения (2.8) используются для подстройки весов (вероятностей) очередного слоя, а выражения (2.9) описывают распространение ошибки к нижним слоям дерева.

3. Результаты расчетов

Предложенный алгоритм определения весов пропадания генов в дереве эволюции был проверен с помощью имитационной модели. В модели имитировался процесс появления и пропадания генов с заданными вероятностями на каждой ветви. По результатам анализа полученных частот встречаемости паттернов эти вероятности восстанавливались нейросетевым алгоритмом обучения и по ним, в свою очередь рассчитывались вероятности паттернов. Можно видеть, что предсказанная с помощью нейросетевой модели частота появления паттернов стремится к истинной, что иллюстрирует рисунок 3, на котором изображены вероятности появления 20 наиболее часто встречающихся паттернов, полученные в ходе моделирования и рассчитанные с помощью нейросетевой модели.

Рис. 3. Истинные и полученные с помощью нейросетевой модели частоты появления паттернов

Таким образом, предложенная нейросетевая архитектура может быть успешно применена для восстановления исходных вероятностей пропадания генов в случаях, когда все эволюционные события сводятся к точечным мутациям, состоящим в исчезновении какого-либо гена.

Разработанный метод был применен к реальным наборам генов существующих организмов. Рассмотрены наиболее хорошо представленный геномами класс бактерий - gamma-proteobacteria. а также царство Archaea. Результаты расчетов представлены на рис. 4.

а) б)

Рис. 4. Истинные частоты и восстановленные с помощью нейронной частоты появления паттернов для а) gamma-proteobacteria и б) Archaea

Проведенные исследования показали, что нейронные сети с адекватной архитектурой являются удачной альтернативой традиционным методам оценки филогенетических взаимосвязей в полных геномах.

Автор выражает свою признательность Татузову Р.Л. из Национального центра биотехнологической информации США (NCBI/NIH) за предоставление данных по геномам и КОГ кластерам, а также за ценные замечания и продуктивное обсуждение биологических аспектов проводимых исследований.

Список литературы

Fitch 1970 W.M. Fitch, "Distinguishing homologous from analogous proteins," Syst. Zool. vol. 19, pp. 99-113, 1970

Fleischmann et al 1995]R.D. Fleischmann et al., "Whole-genome random sequencing and assembly of Haemophilus influenzae Rd," Science, vol. 269, pp. 496-512, 1995

Lander et al 2001 E.S. Lander, et al., "Initial sequencing and analysis of the human genome," Nature, vol. 409, pp. 860-92, February 2001

LeCun 1988 Y. LeCun, "A theoretical framework for Back-Propagation," in Proceedings of the 1988 Connectionist Models Summer School, (D. Touretzky, G. Hinton, and T. Sejnowski, eds.), (CMU, Pittsburgh, Pa), pp. 21-28, 1988.

LeCun 1998 Y. LeCun, L. Bottou, G. Orr, and K. Muller, "Efficient BackProp," in Neural Networks: Tricks of the trade, (G. Orr and Muller K., eds.), 1998.

Rumelhart 1986 Rumelhart D.E., Hinton G.E., and Williams R.J. Learning internal representations by error propagation // In Parallel Distributed Processing: Explorations in the Microstructure of Cognition. v. 1 Foundations, D.E. Rumelhart, J.L. McClelland, and PDP Res. Grp. MIT Press/Bradford Books, Cambridge, Mass., 1986.

Tatusov 1997 R.L. Tatusov, E.V. Koonin, D.J. Lipman, "A genomic perspective on protein families," Science, vol. 278, pp. 631-637, October 1997

Tatusov 2003 R.L. Tatusov, et al., "The COG database: an updated version includes eukaryotes," BMC Bioinformatics, vol. 4, pp.4, September 2003

Wheeler et al 2005 D.L Wheeler et al., "Database resources of the National Center for Biotechnology Information," Nucleic Acids Res., pp. D39-45, January 2005

Yang 2005 S. Yang, R.F. Doolittle, P.E. Bourne, "Phylogeny determined by protein domain content," PNAS, vol. 102, pp. 373-378, January 2005

Felsenstein 1989 J, Felsenstein,, "PHYLIP - Phylogeny Inference Package (Version 3.2)," Cladistics, vol. 5, pp. 164-166, 1989

[Татузов 2005] Татузов А.Л. Нейросетевое моделирование эволюции организмов: потери генов в полных геномах // Нейрокомпьютеры: Разработка и Применение, 2005, № 6.

Размещено на Allbest.ur

...

Подобные документы

  • История происхождения языков Веб-программирования. Исторические факты появления самого первого из них. Сущность современного, актуального в настоящее время, языка HTML, история появления языка PHP, применение языка JavaScript и его использование.

    реферат [23,1 K], добавлен 23.02.2013

  • Изобретатели доэлектронных машин, история и основные этапы эволюции данных устройств. Предпосылки появления первых персональных компьютеров, их внешний вид и функциональные возможности. Внутреннее устройство ПК, его типы и взаимодействие элементов.

    курсовая работа [39,2 K], добавлен 05.01.2014

  • Математическая модель нейронной сети. Однослойный и многослойный персептрон, рекуррентные сети. Обучение нейронных сетей с учителем и без него. Алгоритм обратного распространения ошибки. Подготовка данных, схема системы сети с динамическим объектом.

    дипломная работа [2,6 M], добавлен 23.09.2013

  • История появления эволюционных алгоритмов. Нейрокомпьютерные исследования в России. Реализация генетических алгоритмов. Расчет эффективности процедур поиска конкурирующей процедуры. Schema и теорема шим. Примеры использования нейросетевых технологий.

    курсовая работа [43,0 K], добавлен 20.10.2008

  • Модель и задачи искусственного нейрона. Проектирование двуслойной нейронной сети прямого распространения с обратным распространением ошибки, способной подбирать коэффициенты ПИД-регулятора, для управления движения робота. Комплект “LEGO Mindstorms NXT.

    отчет по практике [797,8 K], добавлен 13.04.2015

  • Математическая модель искусственной нейронной сети. Структура многослойного персептрона. Обучение без учителя, методом соревнования. Правило коррекции по ошибке. Метод Хэбба. Генетический алгоритм. Применение нейронных сетей для синтеза регуляторов.

    дипломная работа [1,5 M], добавлен 17.09.2013

  • Виртуализированная архитектура сети 5G. Требования к пятому поколению сетей. Пропускная способность сети, количество одновременного подключения устройств. Потенциальные технологии в стандарте 5G. Будущее медицины с развитием 5G. 5G в эволюции автомобилей.

    реферат [51,5 K], добавлен 21.12.2016

  • Первые средства счета, проекты счетных машин. История появления перфокарт. Первые вычислительные машины ХХ века. Автоматический программированный цифровой компьютер Z3. Британский Colossus, главная цель его использования в ходе Второй мировой войны.

    презентация [1,8 M], добавлен 15.01.2012

  • Разработка методики оценки кредитоспособности индивидуальных предпринимателей с использованием нейросетевых технологий. Оптимизация и упрощение нейронной сети. Экономическая эффективность инвестиций в разработанную интеллектуальную информационную систему.

    дипломная работа [2,6 M], добавлен 29.06.2012

  • История появления компьютерных вирусов. Классификация компьютерных вирусов по среде обитания, способу заражения, деструктивным возможностям, особенностям алгоритма вируса. Признаки появления вируса в компьютере. Основные методы антивирусной защиты.

    презентация [156,7 K], добавлен 13.08.2013

  • Прогнозирование на фондовом рынке с помощью нейронных сетей. Описание типа нейронной сети. Определение входных данных и их обработка. Архитектура нейронной сети. Точность результата. Моделирование торговли. Нейронная сеть прямого распространения сигнала.

    дипломная работа [2,7 M], добавлен 18.02.2017

  • Принцип построения и описание прибора. Назначение и область применения спектрометра космических излучений на алмазных детекторах. Аппроксимация степенным многочленом. Математическая модель нейронной сети. Описание интерфейса программного комплекса.

    дипломная работа [591,1 K], добавлен 03.09.2017

  • Математические модели, построенные по принципу организации и функционирования биологических нейронных сетей, их программные или аппаратные реализации. Разработка нейронной сети типа "многослойный персептрон" для прогнозирования выбора токарного станка.

    курсовая работа [549,7 K], добавлен 03.03.2015

  • Предпосылки появления и история эволюции баз данных (БД и СУБД). Основные типы развития систем управления базами данных. Особенности и черты Access. Создание и ввод данных в ячейки таблицы. Сортировка и фильтрация. Запрос на выборку, основные связи.

    презентация [1,2 M], добавлен 01.12.2015

  • Общие сведения о вычислительных сетях, история их появления. Локальные и глобальные сети. Пакет как основная единица информации вычислительной сети. Главные способы переключения соединений. Методы организации передачи данных между компьютерами.

    презентация [611,9 K], добавлен 25.11.2012

  • Факты появления двоичной системы счисления - позиционной системы счисления с основанием 2. Достоинства системы: простота вычислений и организации чисел, возможность сведения всех арифметических действий к одному - сложению. Применение двоичной системы.

    презентация [1,5 M], добавлен 10.12.2014

  • Вероятностный подход к поиску. Основы теории вероятностей. Содержание правила Байеса. Проблема ранжирования документов, принцип вероятности. Бинарная модель независимости. Вывод функции ранжирования для терминов запросов. Okapi BM25: небинарная модель.

    презентация [406,9 K], добавлен 06.01.2014

  • "Наивная" модель прогнозирования. Прогнозирование методом среднего и скользящего среднего. Метод опорных векторов, деревьев решений, ассоциативных правил, системы рассуждений на основе аналогичных случаев, декомпозиции временного ряда и кластеризации.

    курсовая работа [2,6 M], добавлен 02.12.2014

  • Исследование нейросетевых архитектур и их приложений. Общие принципы, характерные для нейросетей. Локальность и параллелизм вычислений. Программирование: обучение, основанное на данных. Универсальность обучающих алгоритмов. Сферы применения нейросетей.

    курсовая работа [250,5 K], добавлен 25.11.2010

  • Модель коллектива вычислителей. Кластерные вычислительные системы. Параллельные программы. Список коммуникационных функций дифференцированных обменов. Профилактика зрительного и статического утомления. Схема механизма появления туннельного синдрома.

    дипломная работа [2,7 M], добавлен 22.08.2016

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.