Восстановление кода дезоксирибонуклеиновой кислоты из библиотеки клонов sequence tagged site

Поиск способов оптимизации алгоритмов реконструкции слов в целях восстановления кода дезоксирибонуклеиновой кислоты с использованием генетической диагностики. Реконструкция слов с запретами в гипотезе сдвига, измерение погрешности в работе алгоритмов.

Рубрика Биология и естествознание
Вид дипломная работа
Язык русский
Дата добавления 30.06.2017
Размер файла 1,4 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Восстановление кода дезоксирибонуклеиновой кислоты из библиотеки клонов sequence tagged site

Оглавление

Основные определения, термины и сокращения

Введение

Глава 1. Реконструкция ДНК

1.1 Секвенирование генома

1.2 Восстановление ДНК

1.3 Реконструкция слов в гипотезе сдвига 1

1.4 Генетическая диагностика

Выводы по главе 1

Глава 2. Способы оптимизации алгоритмов реконструкции ДНК

2.1 Сжатие входных данных

2.2 Группировка

2.3 Интервальный граф

2.4 Эвристическое ускорение

2.5 Оптимизация реконструкции с запретами в гипотезе сдвига 1

2.6 Оптимизация генетической диагностики

2.7 Оценка полученных результатов

Выводы по главе 2

Глава 3. Экспериментальный раздел

3.1 Гипотеза

3.2 Протокол тестирования

3.3 Исходные данные

Выводы по главе 3

Глава 4. Анализ результатов

4.1 Расстояние Левенштейна

4.2 Сравнение производительности

4.3 Анализ средней нуклеотидной идентичности

Выводы по главе 4

Заключение

Список использованных источников

Основные определения, термины и сокращения

В данной работе применяются следующие термины и сокращения с соответствующими определениями:

EST (expressed sequence tag) -- неполные и произвольно отобранные комплементарной ДНК, представляющие соответствующие РНК информационного типа [8].

SBH (sequencing by hybridization) -- метод расшифровки ДНК с помощью гибридизации [6].

Shotgun -- дробная расшифровка, так же известная как дробное секвенирование или случайная расшифровка [26].

STS (sequence tagged site) -- уникальная для данного локуса олигонуклеотидная последовательность, которая может быть использована для его идентификации методом полимеразной цепной реакции [26].

YAC (yeast artificial chromosomes) -- рекомбинантные ДНК, созданные методами генетической инженерии [26].

Гамильтонов цикл -- цикл, который содержит все вершины графа [25].

ГБ -- гигабайт.

Генбанк (GenBank Публично доступная база размещена по адресу http://www.ncbi.nlm.nih.gov/genbank/ в сети Интернет.) -- база данных, в которой содержатся аннотированные последовательности ДНК и РНК [10].

Генетическая диагностика -- исследование генома, направленное на определение генетических склонностей к наследственным заболеваниям [9].

Граф де Брёйна -- графом де Брёйна для натуральных параметров и называется ориентированный граф, вершинам которого соответствуют все возможные -значные -ичные последовательности, а рёбра соединяют те и только те пары вершин, для которых последние цифр первого числа совпадают с первыми цифрами второго числа [37].

ДНК (дезоксирибонуклеиновая кислота) -- макромолекула, обеспечивающая хранение, передачу из поколения в поколение и реализацию генетической программы развития и функционирования живых организмов [28].

Задача о коммивояжёре -- задача о поиске наиболее выгодного маршрута, проходящего через указанные города хотя бы по одному разу с последующим возвратом в исходный город [29].

Интервальный граф -- граф пересечений мультимножества интервалов на прямой [30].

Контиг -- набор перекрывающихся фрагментов ДНК, которые в совокупности представляют собой консенсусную область ДНК [32].

Космидная строка -- Строка, содержащая участок начала репликации и позволяющая упаковывать молекулу ДНК в фаговую частицу [26].

Локус -- местоположение определённого гена на генетической или цитологической карте хромосомы [34].

Мультиорграф -- ориентированный граф, в котором разрешены кратные дуги, то есть дуги, имеющие те же начальные и конечные вершины [36].

ОЗУ -- оперативное запоминающее устройство.

Рестриктазы -- эндонуклеазы рестрикции [26].

РНК (рибонуклеиновая кислота) -- тип нуклеиновых кислот, имеющих универсальное распространение в живой природе [40].

Введение

В работе рассматриваются различные алгоритмы реконструкции ДНК и проводится сравнение наиболее распространенных в настоящее время способов их оптимизации, среди которых отдельно выделяются подходы, включающие в себя одновременное использование генетической диагностики и реконструкции слов с запретами в гипотезе сдвига 1.

Обоснование и актуальность темы

В настоящее время задача восстановления кода ДНК весьма актуальна, так как не только даёт возможность ускорить и уменьшить затраты на процесс расшифровки человеческого генома -- задачи, решение которой упрощает и прогнозирование медицинских проблем, которые могут ожидать пациента, -- но и найти способ избавления от множества заболеваний, передающихся по наследству [11].

Расшифровка генома сводится к созданию полной записи ДНК, также представляемую в виде нескольких миллиардов нуклеотидов, объединенных в одну строку. Побочным результатом этого процесса можно считать создание так называемой "карты генома", описывающей расположение STS и EST, что позволит ускорить процесс расшифровки ДНК.

В основе данного исследования лежат алгоритмы, восстанавливающие код ДНК с разными показателями эффективности и точности. Так, в одной из недавно опубликованных статей решение о поиске путей в мультиорграфе де Брейна позволило перейти от неполиномиальной задачи о поиске гамильтоновых циклов к решаемой за линейное время задаче о поиске эйлеровых циклов [41], что значительно ускоряет работу алгоритма.

Использование реконструкции с запретами в гипотезе сдвига 1, а также генетической диагностики, в свою очередь, комбинирует два подхода к ускорению существующих алгоритмов восстановления ДНК практически без потери точности, исследование преимуществ и недостатков которых даёт возможность наиболее оптимально подбирать способы реконструкции, руководствуясь не только имеющимися средствами (место на жестком диске, время работы, ОЗУ), но и входными данными, что позволяет сделать вывод об актуальности выполненного исследования.

Цели и задачи работы

Основной целью исследовательской работы является поиск способов оптимизации алгоритмов реконструкции слов в целях восстановления кода ДНК с использованием генетической диагностики и реконструкции слов с запретами в гипотезе сдвига 1. Цели и задачи работы состоят в том, чтобы на основе существующих алгоритмов реконструкции:

· предложить методы измерения погрешности в работе алгоритмов;

· исследовать возможности оптимизации алгоритмов;

· предложить способы оптимизации и исследовать ожидаемое изменение производительности каждого из алгоритмов в зависимости от оптимизации;

· провести тестирование на файлах Генбанка и сделать выводы о возможностях оптимизированной реконструкции кода ДНК;

· на основе проведенных исследований сделать выводы о наиболее результативных комбинациях алгоритмов реконструкции слов и их оптимизациях с целью реконструировать код ДНК.

Предмет и методы исследования

Предмет исследования данной работы -- возможность восстановить код ДНК из STS-библиотеки клонов. Методы исследования включают в себя инструменты прикладной лингвистики, разработку программы для проведения тестирования, математическое моделирование, генетическую диагностику и работу с файлами Генбанка.

Новизна и достоверность полученных результатов

В последние годы был опубликован ряд исследований, посвященных проблеме восстановления кода ДНК [1, 2, 18]. К сожалению, большинство описанных идей строится на использовании физических меток [1] и не рассматривает алгоритмы реконструкции слов в достаточном масштабе. Идея реконструкции с запретами в гипотезе сдвига 1 ещё не нашла широкого распространения в промышленном производстве, и данные о её эффективности при использовании комбинированного подхода также отсутствуют, как и исследования об эффективности использования генетической диагностики в сочетании с другими способами оптимизации. Данная работа частично восполненяет этот пробел.

Теоретическая значимость и практическая ценность

Теоретическая значимость исследования заключается в том, что после анализа алгоритмов реконструкции слов появится возможность выбирать оптимальные способы восстановления кода ДНК в зависимости от различных факторов (объем входных данных, ожидаемое время выполнения, необходимая точность и т.д.).

Адаптированный для проведения тестирования комплес программных средстав также представляет практическую ценность для исследователей генома, биоинформатиков, сотрудников научных центров и представителей других профессий, так как позволяет разбивать ДНК на STS-библиотеки клонов и контиги, восстанавливать ДНК из уже подготовленых исходных материалов, исследовать содержимое Генбанка и проводить тестирование на среднюю нуклеотидную идентичность полученных результатов.

Структура работы

Работа структурирована следующим образом: в первой главе рассмотрены алгоритмы восстановления ДНК и секвенирования генома, необходимые для начального знакомства с предметной областью, а также представлены техники оптимизации на основе генетической диагностики и реконструкции слов с запретами в гипотезе сдвига 1, на основе которых строится исследовательская работа; вторая глава посвящена различным способам оптимизации вышеупомянутых алгоритмов, а также способам оценки полученных результатов; в третьей главе формулируется гипотеза, которая впоследствии проверяется в соответствии с протоколом тестирования на описанных в этой же главе входных значениях; четвертая глава подводит итог на основе уже упомянутых способах оценки полученных результатов. Завершается работа заключением с обзором выполненных задач и проверенных гипотез, а также направлениями дальнейшей работы.

Глава 1. Реконструкция ДНК

В данной главе приводятся описания различных алгоритмов восстановления ДНК и секвенирования генома, необходимых для начального знакомства с предметной областью, а также представлены техники оптимизации на основе генетической диагностики и реконструкции слов с запретами в гипотезе сдвига 1, на которых строится исследовательская работа.

1.1 Секвенирование генома

В ходе выполнения исследовательской работы был проведен анализ методической литературы и различных изданий, посвященных прикладной лингвистике, теории графов, генетическим алгоритмам, алгоритмам сжатия и биологии. Основными источниками, раскрывающими идеи восстановления кода ДНК посредством алгоритмов над словами, явились работы Д. Гасфилда [26] и П. Лигети [16, 17].

Геном состоит из длинных молекул ДНК, которые, в свою очередь, представляют из себя двойные цепочки нуклеотидов (аденин, тимин, гуанин и цитозин) [23]. Современные технологии позволяют считывать из молекул ДНК только небольшие блоки в несколько сотен нуклеотидов длиной, из случайных мест и с ошибками [43], поэтому чаще всего для полноценного эксперимента необходимо провести миллионы таких считываний [43], а потом попытаться восстановить исходную последовательность. В рамках данной работы рассматриваются алгоритмы, используемые для восстановления отдельных частей данной последовательности, а именно для дробного секвенирования и секвенирования гибридизацией.

1.2 Восстановление ДНК

Задачу восстановления кода ДНК можно решать с двух принципиально разных позиций -- на основе так называемых физических или генетических карт. Так как в рамках данного исследования проблема реконструкции ДНК сводится к алгоритмам над строками, будут рассматриваться только методы, не требующие взаимодействия с генетическими картами, полученными в результате обработки лабораторных препаратов. Физическое картирование, на котором будет акцентировано внимание в следующих главах, тоже подразделяется на множество независимых методов, наибольшую популярность среди которых завоевали STS-картирование и радиационно-гибридное картирование.

Процесс физического картирования можно разбить на несколько частей. Первым этапом выбираются маркеры STS или уже известные гены в коде ДНК -- своего рода "ориентиры" для алгоритма. Затем на основе каких-либо физических параметров определяются метрики (например, число нуклеотидов между двумя маркерами). Полученные данные кодируются в предпочитаемый формат и дальнейшей взаимодействие уже ведется с полученным набором слов над алфавитом {A, T, G, C}.

Подобные физические карты широко используются в медицине для поиска генов, взаимодействие с которыми может привести к появлению или лечению тех или иных заболеваний [26].

Рассмотрим STS-картирование. В данном случае исследование строится на коротких подстроках ДНК, встречающихся только в определенных местах всего генома -- STS. Это свойство даёт возможность построить "библиотеку клонов", набор маркеров, о которых известно в каких случаях они перекрываются (впрочем, порядок и изначальное положение могут быть недоступны). В рамках данной работы мы будем рассматривать только упорядоченные библиотеки клонов, так как для каждого блока в них известно физическое расположение STS-маркеров относительно оригинального ДНК.

Иными словами, процесс создания STS-карты, о котором шла речь выше -- это упорядочивания STS с одновременным созданием физической карты для упорядоченной библиотеки клонов.

Рисунок 1. Схема с тремя клонами и четырьмя STS. Рисунок показывает реальное расположение STS и клонов, которое, однако, неизвестно и должно быть установлено алгоритмом.

Рисунок 2. Данные для клонов, представленные в виде матрицы (см. Рис. 1). Так как правильный порядок STS неизвестен, они размещены случайным образом.

Задача картирования осложняется при получении участка кода ДНК в реальных условиях, так как в состав STS вносятся ошибочные данные. В рамках данной работы исследование строится на основе файлов Генбанка, библиотеки клонов в которых заведомо не содержат ошибок [10]. Также следует отметить, что для воссоздания порядка STS и определения мест клонов ДНК на физической карте, достаточно информации о содержании STS. Это следует из того, что расстояние между двумя STS находится в обратной зависимости от числа клонов, общих для этих STS, а клоны, в которых встречается STS, должны перекрывать друг друга в месте расположения этого элемента.

Рисунок 3. Когда данные об STS не содержат ошибок, можно переставить столбцы в матрице так, чтобы единицы шли подряд.

Из этого следует, что для восстановления исходного порядка маркеров достаточно переставить столбцы в матрице (см. Рис. 2) так, чтобы в каждой строке все единицы были упорядочены (см. Рис. 3). Это достигается за счет алгоритма Бута-Люкера, работающего за линейное время [10]. Как было упомянуто выше, из-за заранее известной в рамках данной задачи длины клонов, этой информации достаточно для воссоздания физической раскладки клонов в коде ДНК.

Второй подход, радиационно-гибридное картирование, более популярен для работы с библиотеками клонов более крупного размера. Отчасти он сводится к решению задачи о коммовояжёре. Сам же метод изначально основывался на процессе облучения отдельной хромосомы из генома человека, которая разбивалась на некоторое число фрагментов и внедрялась в клетку какого-либо грызуна. В результате этого, на протяжении нескольких поколений каждая клетка грызуна всё реже и реже воспроизводит изначальную человеческую ДНК, но при этом создает новые, гибридные клетки, оставляя от человеческой хромосомы не больше 20%. Данный процесс неоднократно повторяется в случайном порядке с разными экземплярами одной и той же хромосомы и позволяет понять, какие из изначальных неупорядоченных STS содержатся в тех или иных "человеческих" фрагментах каждой из клеток (см. Рис. 4). Соответственно, кардинальное отличие такого подхода от простого STS-картирования в невозможности определить непосредственно фрагмент с маркером на основе полученных данных

.

Рисунок 4. Фрагменты человеческой ДНК, которые содержатся в четырех гибридных клетках грызуна.

После представления информации о фрагментах в формате, аналогичном описанному на рис. 2, необходимо определить правильный порядок STS. В данной ситуации разумно свести задачу к задаче о коммивояжёра на неориентированном графе. Пусть существует двоичная матрица радиационно-гибридных данных. На ее основе сформируем неориентированный граф с одной вершиной для каждого столбца матрицы (иными словами, для каждого STS) и одной дополнительной вершиной и ребрами, соединяющими каждые две вершины. В таком случае для того, чтобы упорядочить STS, нужно найти гамильтонов цикл в этом графе. Кроме того, каждому ребру графа необходимо сопоставить вес. Для ребра весом будет число единиц в столбце , а для любого другого ребра -- число строчек, в которых столбцы и различны, то есть расстояние Хэмминга [26]. Таким образом, этих данных достаточно, чтобы решить на них задачу о коммивояжёре.

Последний этап заключается в расшифровке полученных данных. В настоящее время наиболее распространен метод, основанный на создании физических карт больших клонов и дробном секвенировании остальных.

Рисунок 5. Схема гипотетической крупномашстабной расшифровки. Рисунок не передает масштаба.

Вышеописанная методика является одним из стандартных подходов к обработке нуклеотидных последовательностей и широко используется в исследовательской сфере [7, 14]. К сожалению, с ростом длины последовательности увеличиваются не только требования к техническим устройствам, на которых происходит обработка данных и расшифровка, но и непосредственно время, необходимое для разбора всех возможных случаев, поэтому на протяжение уже нескольких десятилетий ведется непрерывная работа над улучшением и оптимизацией вышеупомянутых этапов.

В дальнейшем в рамках данного исследования за базу решения будет взято восстановление ДНК с помощью реконструкции слов в гипотезе сдвига 1, которое показала себя как наиболее быстрое на ряде тестов [31].

1.3 Реконструкция слов в гипотезе сдвига 1

В основе предлагаемого решения задачи лежит построение специального мультиорграфа де Брейна.

Дальнейшее изложение в данном подразделе опирается на систему обозначений, используемых в работе [41], также как и решения по реконструкции слов в гипотезе сдвига 1 [42]. Обозначим через

элементы слова длины , определяемые как подслова неизвестного слова , образованные посредством сдвига. Составим из полных префиксов и полных суффиксов всех слов объединенное множество без повторений:

Тогда множество вершин мультиорграфа де Брейна есть множество пар, состоящих из элементов множества и порядковых номеров вершин:

Для всех слов, таких, что

из ,

выполнить:

1. Определить и lля слова ;

2. Найти вершины графа де Брёйна

,

где -- функция выбора -ого элемента из кортежа , имена которых совпадают с префиксом и суффиксом слова ;

3. Поставить в соответствие слову дугу с начальной вершиной , конечной вершиной , символическим именем , кратностью и значением слова

4.

Тогда элементы множества дуг будут представлены в виде упорядоченных пятерок, состоящих из начальной вершины, конечной вершины, символического имени дуги, кратности и значения.

Чтобы построить матрицу смежности, воспользуемся следующим алгоритмом:

Инициализация:

for from do:

1) Определить начальную и конечную вершину дуги --

, ;

2) Присвоить элементу матрицы значение в виде кортежа длины 1, элементом которого является символическое имя дуги --

.

Будем считать, что при фиксации изначальной вершины обхода эйлерова цикла он может быть определен как эйлеров путь.

В таком случае найдем все возможные эйлеровы пути, отталкиваясь от идеи возведения в степень матрицы смежностей мультиорграфа де Брейна на основе символьного умножения дуг:

,

где

-- кортеж символических имен, а -- функция определения кратности дуги в кортеже . Заметим, что операция символического умножения "" тождественна наличию нескольких кортежей в элементе , то есть наличию нескольких путей из вершины до вершины , состоящих из дуг (путей длины).

В случае, когда мультиорграф не является эйлеровым, варианты реконструкции отсутствуют.

Иначе, каждый эйлеров путь с учтенной кратностью дуг соответствует одному из возможных решений задачи реконструкции. Если же эйлеров цикл или цикл с зафиксированной вершиной обхода в мультиорграфе де Брейна задан кортежем ,

,

то реконструируемое в гипотезе сдвига 1 слово представляет собой склейку на основе следующего алгоритма (см. cхему 1):

for вершина from Ew do

1) Если вершина не последняя в кортеже, то к результатам реконструкции добавить первый символ из соответствующего ей подслова;

2) Иначе -- добавить все символы.

Схема 1. Склейка реконструируемых слов по мультиорграфу де Брёйна.

Таким образом, в результате будут найдены все возможные варианты восстановления кода ДНК или обнаружено, что их нет. Этот подход к реконструкции кода ДНК можно отнести к алгоритмам high-throughput секвенирования, отличительной чертой которых является возможность работы с более короткими (до 150 нуклеотидов [43]) последовательностями и лояльность в более высокому проценту ошибок.

Главная проблема данного подхода -- отсутствие возможности задать параметры реконструкции, отделить шумы на этапе построения графа или задать необходимые требования к результату. Для этого нами предлагается использовать генетическую диагностику для фильтрации результатов.

1.4 Генетическая диагностика

Генетическая диагностика, получившая распространение в первую очередь в медицинских заведениях, позволяет не только исследовать предрасположенности к наследственным заболеваниям (предимплантационная генетическая диагностика, [38]), но и максимально подробно сформулировать набор правил, по которым будут отсекаться или наоборот выбираться возможные варианты из множества, полученного после секвенирования.

В первую очередь данный подход основывается на использовании баз данных, содержащих аннотированные последовательности ДНК и РНК, а также последовательности закодированных в них белков. Это позволяет сэкономить часть ресурсов при реконструкции ДНК и воспользоваться уже доступной информацией о наиболее вероятных комбинациях нуклеотидов, а также отсеять шумы и погрешности реконструкции на основе STS-маркеров [26].

Более подробно об использовании генетической диагностики, которая сводится к алгоритмам над строками, пишут [4] и [13], но в рамках данной работы будет использоваться в первую очередь поиск множества подстрок в строке, а также перебор комбинаций на основе правил реконструкции.

Выводы по главе 1

В первой главе были приведены описания различных алгоритмов восстановления ДНК и секвенирования генома, необходимых для начального знакомства с предметной областью, а также представлены концепты техник оптимизации на основе генетической диагностики и реконструкции слов с запретами в гипотезе сдвига 1, на основе которых строится исследовательская работа.

Глава 2. Способы оптимизации алгоритмов реконструкции ДНК

Эта часть посвящена способам оптимизации алгоритмов реконструкции ДНК, которые были рассмотрены в предыдущей главе, в том числе и более детально рассмотрены методы генетической диагностики и реконструкции слов с запретами в гипотезе сдвига 1. Помимо описания самих подходов к оптимизации, в главе приведены необходимые теоретические сведения, а также рассмотрены способы оценки корректности полученных результатов.

2.1 Сжатие входных данных

Первая проблема, возникающая при программной реализации вышеописанных алгоритмов, как требующих хранения исходных значений для генетической диагностики, так и оперирующих матрицами смежности -- это проблема большого объема данных. В процесе реконструкции слов по мультимножеству подслов в гипотезе сдвига 1 необходимо как поддерживать регулярные операции удаления и добавления символов, так и обрабатывать значительное количество строк [41], что приводит к высокой загруженности как дискового пространства, так и оперативной памяти. Для оптимизации данного аспекта предлагается использовать так называемые карты рестриктаз, то есть строки, в которых каждый нечетный символ описывает расстояние между элементами, а каждый четный -- непосредственно элемент конечного алфавита, входящий в состав изначальной строки.

Например, для строкового представления ДНК вида TTTTTTTTTTTTTTTTTTTTTTTTTGGAAAAAAAAAAAAAAAAAAAAAAAAAAA может быть составлена карта 25T2G27A. В виду свойств ДНК, которые подробно рассмотрены в сторонних источниках [26, 27], подобная система сжатия позволяет сократить размер исходной строки на 60-75% [26]. Кроме того, подобное разбиение возможно на основе реальных биологических ферментов, относящихся к классу гидролиза, которые расщепляют нуклеиновые кислоты не с конца молекулы, а в середине и таким образом "узнают" участки ДНК.

2.2 Группировка

Еще одна проблема, связанная с обоими методами секвенирования, заключается в высокой стоимости выполнения тестов для каждой пары STS и клонов. Вместо этого предлагается группировать клонов в блоки и тестировать STS на перекрытие с каждым блоком по отдельности [26] -- этого достаточно, чтобы понял, присутствует ли данный STS хотя бы в одном из объектов блока. Соответственно, для группировки можно или один раз случайным образом отобрать клонов, или после каждого теста перестраивать блоки для улучшения полученных ранее результатов, что даёт простор для применения генетических алгоритмов и элементов машинного обучения.

2.3 Интервальный граф

В базовой реализации алгоритма один из этапов включает в себя поиск перестановок, которые приводят к образованию строк из нескольких идущих подряд единиц (см. Рис. 3). В изначальной версии используется алгоритм , предложенный Бутом и Люкером [26] и работающий за . Эту задачу можно решить за меньшее число операций, используя лексикографический поиск в ширину и тот факт, что интервальным может быть только хордальный граф [33].

Алгоритм выглядит следующим образом (см. схему 2).

1. Создать набор множеств вершин У, состоящий из одного множества со всеми вершинами графа.

2. Создать пустую результирующую последовательность вершин.

3. Пока У непустое:

a. Из первого множества в У взять вершину v и удалить.

b. Если первое множество в У стало пустым, удалить.

c. Добавить v в конец результирующей последовательности.

d. Для каждого ребра v-w:

i. Определить множество S в У которое содержит w.

ii. Если множество S еще не разделялось при обработке v, создать новое пустое множество T и поместить его перед S в У.

iii. Переместить вершину w из S в T и, если S стало пустым удалить его из У.

Схема 2. Алгоритм лексикографического поиска в ширину [33].

Так как каждая итерация внутреннего цикла конечна, временная сложность алгоритма является линейной и составляет .

2.4 Эвристическое ускорение

Аналогично с п. 2.3, Shotgun включает в себя сборку последовательностей, на этапе которой производится поиск наилучшего суффиксно-префиксного совпадения. Асимптотическая сложность этого алгоритма , то есть при поиске для всех фрагментов получается , что и занимает почти всё время работы программы.

Чтобы избежать данной проблемы, предлагается на первом этапе распознавать те пары строк, которые не имеют достаточного сходства и гарантированно не могут использоваться как части итоговой ДНК. В данном случае эвристическое ускорение позволяет оптимизировать время работы программы путем отсечения лишних данных до обработки [26].

Аналогично, эвристические методы позволяют улучшить алгоритм поиска гамильтонового цикла с помощью алгоритма Кристофидеса [26]: пусть на входе мы имеем матрицу расстояний для графа . Тогда алгоритм будет состоять из следующих шагов (см. схему 3):

1. Найти минимальное остовное дерево с матрицей весов ;

2. Выделить множество всех вершин нечетной степени в и найти кратчайшее совершенное паросочетание в полном графе с множеством вершин ;

3. Построить эйлеров граф с множеством вершин и множеством ребер ;

4. Найти эйлеров путь в ;

5. Пользуясь последовательным исключением посещенных вершин, построить гамильтонов цикл из .

Схема 3. Алгоритм Кристофидеса [26].

2.5 Оптимизация реконструкции с запретами в гипотезе сдвига 1

Ряд эндонуклеаз рестрикции может быть использован для индикации блоков ДНК, которые не существуют в условиях реального мира [18]. Таким образом, на этапе сборки генома можно отсечь существенное количество невозможных вариантов, уменьшив количество итераций алгоритма и сократив необходимые для его работы ресурсы (ОЗУ, дисковое пространство).

В отличие от простой реконструкции в гипотезе сдвига 1, описанной в предыдущей главе, реконструкция с запретами позволяет учитывать дополнительные ограничения на этапе непосредственно реконструкции. Такими ограничениями могут быть как данные генетической диагностики (например, невозможность в реальных условиях получить конкретный набор нуклеотидов в последовательности), так и более глобальные условия -- заранее описанный набор исключений или "стоп-слов", появление которых в результирующей цепочки не устраивает авторов (например, последовательность генов, отвечающая за наследственное заболевание).

В рамках данной работы особый интерес для нас представляет поиск решений в частных случаях на основе редукции графа де Брейна, потому что рассмотренные в [42] тривиальные случаи, а также решение перечислением всех эйлеровых путей сводятся к проверке вхождений запрещенного слова или слов в множество слов реконструкции -- иными словами, к фактически переборному решению из нескольких этапов, что в плане асимптотической трудоемкости незначительно отличается от оптимизационных решений с помощью генетической диагностики. В случае же с редукцией графа, результат может быть получен с меньшеи? трудоемкостью, чем через прямое решение задачи реконструкции без запретов. Обсудим этот подход более детально в системе обозначений [42].

Процедура редукции включает следующие два этапа (см. схему 4).

Поиск запрещенного слова в мультиорграфе де Брейна (I)

1. Строим упорядоченное мультимножество подслов длины k из запрещенного слова посредством оператора сдвига 1;

2. Полагаем и присваиваем кортежу t значение пусто;

3. Ищем в дугу, значение которой совпадает с i-ым сдвигом по запрещенному слову. Если такой дуги нет, то мы решаем задачу в постановке без запрещенных слов, иначе увеличиваем кортеж элементов.

4. Увеличиваем значение i i 1 и переходим к шагу 3 для всех i n k 1.

5. Путь по дугам, описываемый кортежем t, порождает запрещенное слово.

Редукция мультиорграфа

(II)

По мультиорграфу

строим редуцированный мультиорграф

сле дующим образом:

1. По всем элементам кортежа выполняем редукцию ребер;

2. Добавляем в граф новую дугу, имеющую значение запрещенного слова, и соединяющую начальную и конечную вершины найденного пути.

Схема 4. Редукция мультиорграфа де Брёйна [42].

2.6 Оптимизация генетической диагностики

Для ускорения сборки можно пользоваться побочной информацией, доступной в открытых источниках -- например, информацией о наиболее популярных парах перекрывающихся фрагментов и/или данными о физическом расстоянии между блоками [21]. В файлах Генбанка содержится информация о допустимых и недопустимых последовательностях контингов.

Для работы с базами генетической диагностики, в свою очередь, применяются соответствующие алгоритмы работы со строками. Так, например, можно сократить и объем входных данных, и асимптотическую сложность итогового алгоритма, воспользовавшись структурой данных под названием бор и построив по ней конечный детерминированный аппарат -- иными словами, реализовав алгоритм Ахо-Корасик для поиска всех вхождений всех строк-образцов в заданную строку (см. схему 5):

1. Построить бор из строк.

a. Построение выполняется за , где -- суммарная длина строк;

2. Преобразовать бор.

a. Обозначим за слово, приводящее в вершину u в боре. Узлы бора можно понимать как состояния автомата, а корень как начальное состояние. Узлы бора, в которых заканчиваются строки, становятся терминальными. Для переходов по автомату заведём в узлах несколько функций:

i. -- возвращает родителя вершины u;

ii. -- суффиксная ссылка, и существует переход из parent(u) в u по символу c;

--

функция перехода.

3. Построить сжатые суффиксные ссылки

,

где -- сжатая суффиксная ссылка, т.е. ближайшее допускающее состояние (терминал) перехода по суффиксным ссылкам. Аналогично обычным суффиксным ссылкам сжатые суффиксные ссылки могут быть найдены при помощи ленивой рекурсии.

4. Использовать автомат

a. По очереди просматриваем символы текста. Для очередного символа с переходим из текущего состояния u в состояние, которое вернёт функция . Оказавшись в новом состоянии, отмечаем по сжатым суффиксным ссылкам строки, которые нам встретились и их позицию (если требуется). Если новое состояние является терминалом, то соответствующие ему строки тоже отмечаем.

5. Оценить результаты

2.7 Оценка полученных результатов

Несмотря на довольно большой спектр доступных для использования идей оптимизации, особый интерес представляет исследование наиболее эффективной комбинации выше предложенных способов. Соответственно, необходимо выбрать некую метрику, на основе которой будет проведено сравнение. В рамках данной исследовательской работы мы остановились на сочетании расстояния Левенштейна, отображающего "минимальное количество операций вставки одного символа, удаления одного символа и замены одного символа на другой, необходимых для превращения одной строки в другую" [39], а также среднего анализа идентичности нуклеотидов [3]. Благодаря этому удалось решить проблему с некорректным отображением точности в ситуациях, когда исходная строка при посимвольном сравнении незначительно отличалась от результата секвенирования, но после деления на нуклеотиды и их сортировки подтверждала некорректность всего процесса восстановления.

Рассмотрим предложенные метрики подробнее. В основу расстояния Левенштейна положена идея динамического программирования по префиксу. Будем хранить матрицу , где -- расстояние Дамерау-Левенштейна между префиксами строк и , длины префиксов -- и соответственно. Для учёта транспозиции потребуется хранение следующей информации. Инвариант: -- индекс последнего вхождения в , last -- на -ой итерации внешнего цикла индекс последнего символа

.

Тогда если на очередной итерации внутреннего цикла положить

, то

,

Где

Расстояние Левенштейна широко применяется для сравнения генов, хромосом и белков [20], но обладает двумя существенными для рассматриваемой задачи минусами: при перестановке местами слов или частей слов расстояния значительно увеличиваются, а также из-за отсутствия учёта длины итогового слова нередки ситуации с небольшим редакционным расстоянием между двумя совершенно разными короткими словами или с большим редакционным расстоянием между двумя очень похожими длинными словами. Не смотря на минусы, в данной работе всё равно учитывается расстояние Левенштейна, потому что в большинстве случаев прослеживается прямая зависимость между его значением и точностью реконструкции [31].

Для повышения точности итоговой оценки результатов исследования было принято решение дополнительно проверять полученные строки на среднюю нуклеотидную идентичность (ANI). Иными словами, попарно сопоставить фрагменты исходного и полученного ДНК, полученные в результате разрезания строки по эндонуклеазам рестрикции. Такой подход не только позволяет ввести метрику, более устойчивую к перегруппировке генома [19], но и принять во внимание возможность горизонтальной транспортировки генов [22]. В данной работе за основу принимается утверждение, что при ANI равном 95% или выше, тестируемые строки относятся к одному и тому же виду и были восстановлены корректно ]22].

Вычисление ANI обычно включает фрагментацию последовательностей генома с последующим поиском, выравниванием и определением нуклеотидной последовательности. Исходный алгоритм вычисления ANI использовал в качестве поисковой системы программу BLAST, но за последние несколько лет были предложены ряд улучшений, в том числе ANIb (алгоритм ANI с использованием BLAST), ANIm (ANI с использованием MUMmer), OrthoANIb (OrthoANI с использованием BLAST) и OrthoANIu (OrthoANI с использованием USEARCH). После тестирования, проведенного на более чем 100000 парах геномов с различными размерами, значения сравнили с ANIb, который считается стандартным. OrthoANIb и OrthoANIu показали хорошую корреляцию во всем диапазоне значений ANI, ANIm показал низкую корреляцию для ANI <90%. ANIm и OrthoANIu работают на порядок быстрее, чем ANIb. Когда были проанализированы геномы размером более 7 Мбит, время работы ANIm и OrthoANIu было короче, чем у ANIb на 53 и 22 раза, соответственно [22]. Таким образом, в рамках данной работы было решено остановиться на OrthoANIu, так как этот алгоритм позволяет значительно ускорить получение результатов без потери точности.

Выводы по главе 2

В данной главе были предложены способы оптимизации алгоритмов реконструкции ДНК, высказаны предположения об их влиянии на итоговый результат, а также рассмотрены подходы для измерения эффективности и риски их использования.

Глава 3. Экспериментальный раздел

В данном разделе формулируется гипотеза, корректность которой затем проверяется во время тестирования, а также описывается протокол тестирования и набор исходных данных, на которых тестирование производилось.

3.1 Гипотеза

На основе работ [4, 12, 17, 42] можно сделать вывод о том, что теоретический предел для реконструкции ДНК на основе генетической диагностики и реконструкции слов с запретами в гипотезе сдвига 1 ещё не достигнут. Утверждается, что использование вышеописанных способов оптимизации способно значительно уменьшить временные затраты без существенного (отклонение < 3% ANI) ухудшения качества.

3.2 Протокол тестирования

Для исследования полученных алгоритмов была написана программа на языке Python 2.7 (код программы изложен в Приложении 1), позволяющая генерировать библиотеки клонов на основе заданных ДНК (явно или посредством файлов Генбанка) и реконструировать их различными методами.

Список элементов программы выглядит следующим образом:

· Базовая реализация метода дробного секвенирования;

· Базовая реализация метода восстановления гибридизацией;

· Оптимизированная реализация метода дробного секвенирования с использованием генетической диагностики;

· Оптимизированная реализация метода восстановления гибридизацией с использованием реконструкции слов с запретами в гипотезе сдвига 1;

· Оптимизированная реализация метода восстановления гибридизацией с использованием и генетической диагностики, и реконструкции слов с запретами в гипотезе сдвига 1;

· Парсер файлов Генбанка;

· Модуль вычисления расстояния Левенштейна;

· Модуль вычисления ANI;

· Тестер, собирающий результаты работы алгоритмов.

В целях изучения возможности оптимизации каждого из алгоритмов был проведен ряд тестов:

· Библиотека клонов была сгенерирована один раз на основе файлов Генбанка.

· В изолированной от внешних процессов среде каждый из алгоритмов запускался отдельно;

· Воспроизводился процесс реконструкции ДНК, описанный в Главе 1;

· Замерялось процессорное время от момент прочтения первого элемента библиотеки клонов до закрытия записи в файл с результатами;

· Полученная последовательность или последовательности сохранялись отдельно;

· На основе всех последовательностей производилось сравнение расстояния Левенштейна и ANI с изначальными файлами нуклеотидных последовательностей Генбанка;

· Генерировались графики с результатами работы по времени и точности полученного результата;

· Список алгоритмов ранжировался в соответствии с ANI, временем работы и расстоянием Левенштейна.

Тестирование проводилось на ноутбуке Macbook Air "13 (4 ГБ ОЗУ, 128 ГБ SSD, Core i5 Dual-core 1.4 GHz).

3.3 Исходные данные

Тестирование проводилось на нуклеотидных последовательностях, представленных Генбанком. Для чистоты эксперименты был написан генератор псеводслучайных последовательностей, результаты работы которого использовались для выбора образцов секвенированного генома по совпадению подстрок. В дальнейшем из выборки удалялись элементы с длиной последовательности меньше 30 000 элементов (не представляют достаточно значимых для сравнительного тестирования данных) и больше 5 000 000 элементов (приблизительные ограничения жесткого диска), а удовлетворяющие условиям последовательности были отсортированы по возрастанию количества символов. Список всех нуклеотидных последовательностей, задействованных в тестировании, представлен в Приложении 2.

Выводы по главе 3

В третьей главе была сформулирована гипотеза о возможности оптимизировать алгоритмы реконструкции ДНК на основе генетической диагностики и реконструкции слов с запретами в гипотезе сдвига 1, а также описаны протокол тестирования и набор исходных данных с ограничениями.

Глава 4. Анализ результатов

В данной главе исследуемые способы оптимизации сравниваются на основе расстояния Левенштейна по отношению к исходными строками, а также по показателям производительности в соответствии с протоколом тестирования. Заключительное решение о ранжировании способов оптимизации принимается на основе анализа средней нуклеотидной идентичности.

4.1 Расстояние Левенштейна

Самой тривиальной метрикой в случае данного тестирования было расстояние Левенштейна. Как уже отмечалось выше, с его помощью не всегда можно получить информацию о реальном отличии или сходстве строк, но, так как в нашем случае речь идёт о сравнительном анализе, данным параметром было решено не пренебрегать.

Рассмотрим результаты тестирования на точность по расстоянию Левенштейна (на графиках показано, насколько отличается среднее значение расстояния Левенштейна для реконструированного объекта -- иными словами, процент числа правок, которые нужно внести в новый объект чтобы получить исходный, от его длины):

Исследовались все вышеупомянутые алгоритмы, как неоптимизированные, так и с оптимизацией без комбинирования методов. Для базовых реализаций результаты тестирования незначительно отличаются от описанных в [15, 26]:

Рисунок 6. Точность базовой реализации метода восстановления гибридизацией на основе расстояния Левенштейна.

Рисунок 7. Точность базовой реализации метода дробного секвенирования на основе расстояния Левенштейна.

Отметим, чем выше число нуклеотидов в результирующем геноме, тем качественнее, если брать за основу данную метрику, оказывается результат тестирования. В случае с оптимизированным алгоритмом дробной расшифровки разницы в параметрах метрики нет, что ожидаемо -- генетическая диагностика не повлияла на результаты реконструкции.

Рисунок 8. Точность оптимизированной реализации метода восстановления гибридизацией с использованием реконструкции слов по мультимножеству подслов в гипотезе сдвига 1 на основе расстояния Левенштейна.

Рисунок 9. Точность оптимизированной реализации метода дробного секвенирования с использованием генетической диагностики на основе расстояния Левенштейна.

Как можно заметить, чем выше число нуклеотидов в результирующем геноме, тем качественнее, если брать за основу данную метрику, оказывается результат тестирования. Посмотрим на результат прохождения тестов наиболее комплексным алгоритмом, использующим и технологию реконструкции ДНК с помощью восстановления слов по мультимножеству подслов с запретами в гипотезе сдвига 1, но и генетическую диагностику:

Рисунок 10. Точность оптимизированной реализации метода восстановления гибридизацией с использованием и генетической диагностики, и реконструкции слов с запретами в гипотезе сдвига 1 на основе расстояния Левенштейна.

В данном случае, как и ожидалось, заметных падений точности по сравнению с эталонной версией нет. Можно отметить, что при этом наиболее высокую точность показывают реализации метода восстановления гибридизацией.

4.2 Сравнение производительности

Теперь давайте рассмотрим производительность каждого из методов. Ниже представлен график роста среднего времени (мс), которое необходимо алгоритму для восстановления 10 000 символов (с ростом длины последовательности).

Рисунок 11. Сравнение производительности алгоритмов реконструкции ДНК.

Заметим, что наиболее устойчивыми к увеличению объемов входных данных оказались методы с использованием генетической диагностики. Как косвенно упоминают в своих работах [12] и [26], причиной тому может быть наличие большего объема данных для генерации копий, на основе которых и производится поиск по базам на предмет совпадений и исключений.

4.3 Анализ средней нуклеотидной идентичности

Перейдем к заключительной части анализа -- средней нуклеотидной идентичности. Весьма показательны графики того, насколько отличается процент числа правок, которые нужно внести в новый объект чтобы получить исходный, от его длины.

Рисунок 12. Точность базовой реализации метода восстановления гибридизацией на основе ANI.

Рисунок 13. Точность базовой реализации метода дробного секвенирования на основе ANI.

В отличие от вышеприведенных результатов тестирования с метрикой на основе расстояния Левенштейна, можно заметить, что точность реконструкции никак не зависит от количества элементов в последовательности. Более того, некоторые из самых длинных последовательностей вообще не удалось восстановить.

Рисунок 14. Точность оптимизированной реализации метода восстановления гибридизацией с использованием реконструкции слов с запретами в гипотезе сдвига 1 (ANI)

Рисунок 15. Точность оптимизированной реализации метода дробного секвенирования с использованием генетической диагностики (ANI)

Рисунок 16. Точность оптимизированной реализации метода восстановления гибридизацией с использованием реконструкции слов с запретами в гипотезе сдвига 1.

Также подтверждается гипотеза о том, что средняя нуклеотидная идентичность дает куда более точное представление о корректности реконструкции, нежели метрика по расстоянию Левенштейна. Можно заметить, что в ситуациях, когда значение расстояния Левенштейна было незначительным, нуклеотидные последовательности могли кардинально различаться. реконструкция слово генетический диагностика

Рисунок 17. Точность оптимизированной реализации метода восстановления гибридизацией с использованием и генетической диагностики, и реконструкции слов с запретами в гипотезе сдвига 1.

Таким образом, можно заметить, что наиболее эффективно в оптимизации алгоритмов реконструкции ДНК проявляется сочетание генетической диагностики, которая позволяет отсечь или, наборот, ускорить разбор ДНК на STS-карты на самых ранних этапах, с реконструкцией слов с запретами, благодаря которой можно избавляться от тупиковых маршрутов реконструкции на самых первых этапах.

Выводы по главе 4

В главе, посвященной анализу результатов проведенного в рамках исследования тестирования, были сформулированы основные наблюдения на основе полученных данных и графиков.

Заключение

Реконструкция генома в целом и кода ДНК в частности -- одна из наиболее сложных и глобальных задач биоинформатики, исследование на стыке прикладной лингвистики, алгоритмов над строками и математики.

Полученные результаты

В рамках выполнения выпускной квалификационной работы было проведено исследование способов оптимизации алгоритмов реконструкции ДНК на основе генетической диагностики и реконструкции слов с запретами в гипотезе сдвига 1. Для тестирование гипотезы, выдвинутой в процессе проведения исследования, была разработана вспомогательная программа, позволяющая секвенировать, разрезать и восстанавливать последовательности нуклеотидов из базы Генбанка, а также замерять производительность и точность процесса реконструкции. Кроме того, тривиальные реализации алгоритмов [26] были дополненны предложенными улучшениями (эвристики, сжатие данных, STS-карты) и только после этого проверялись на тестах. Был сделан вывод об эффективности предложенного способа оптимизации в сравнении с работами [1, 42].

Поставленные и выполненные задачи

Основной целью выпускной квалификационной работы являлся поиск способов оптимизации алгоритмов реконструкции слов в целях восстановления кода ДНК с использованием генетической диагностики и реконструкции слов с запретами в гипотезе сдвига 1. В связи с этим были поставлены и выполнены следующие задачи:

· предложить методы измерения погрешности в работе алгоритмов (были выбраны ANI и расстояние Левенштейна);

· исследовать возможности оптимизации алгоритмов;

· предложить способы оптимизации и исследовать ожидаемое изменение производительности каждого из алгоритмов в зависимости от оптимизации (был предложен ряд способов оптимизации, ожидаемое изменение было исследовано на основе асимптотической оценки алгоритмов)

· провести тестирование на файлах Генбанка и сделать выводы о возможностях оптимизированной реконструкции кода ДНК (возможность оптимизированной реконструкции подтвердилась)

· на основе проведенных исследований сделать выводы о наиболее результативных комбинациях алгоритмов реконструкции слов и их оптимизациях с целью реконструировать код ДНК.

Направления дальнейшей работы

Процесс восстановления кода ДНК стал быстрее, но проблема по-прежнему актуальна: в современном мире на среднестатистическом ноутбуке реконструкция генома для самостоятельной проверки на генетические заболевания занимает несколько недель, а результат все равно не гарантирует 100%-ой точности. В дальнейшем в рамках этого исследования можно как продолжить оптимизацию алгоритмической составлящей, так и сконцентрироваться на улучшении технических средств -- например, используя облачные платформы или распределяя нагрузку на пользователей Сети .

...

Подобные документы

  • Основная роль дезоксирибонуклеиновой кислоты. Ученые, создавшие в 1953 г. модель структуры молекулы. Система выделения и очистки нуклеинов. Схематичное изображение отрезка дезоксирибонуклеиновой кислоты в окружении различных белковых структур человека.

    презентация [1,9 M], добавлен 02.02.2014

  • Сшивка фрагментов дезоксирибонуклеиновой кислоты по одноименным и разноименным "липким концам" и коннекторным методом. Организация генов про- и эукариот. Определение нуклеотидной последовательности (секвенирование) ДНК. Подходы к клонированию ДНК.

    реферат [33,4 K], добавлен 01.12.2016

  • Сущность, состав нуклеотидов, их физические характеристики. Механизм редупликации дезоксирибонуклеиновой кислоты (ДНК), транскрипция ее с переносом наследственной информации на РНК и механизм трансляции — синтез белка, направляемый этой информацией.

    реферат [461,8 K], добавлен 11.12.2009

  • Создание генетически модифицированного или трансгенного организма. Выделение гена из дезоксирибонуклеиновой кислоты с помощью химико-ферментного или ферментного синтезов. Значение генно-инженерных манипуляций. Изготовление и применение пищевых добавок.

    презентация [6,2 M], добавлен 31.10.2016

  • Первоначальные способы не автоматизированного секвенирования ДНК, его недостатки. Сущность и принцип автоматического секвенирования, механизм проведения, особенности и проблемы, синтез праймера для начала реакции, использование бактериофага М13.

    реферат [24,3 K], добавлен 11.12.2009

  • Изучение химических основ наследственности. Характеристика строения, функций и процесса репликации рибонуклеиновой и дезоксирибонуклеиновой кислот. Рассмотрение особенностей распределение генов. Ознакомление с основными свойствами генетического кода.

    контрольная работа [38,4 K], добавлен 30.07.2010

  • История изучения нуклеиновых кислот. Состав, структура и свойства дезоксирибонуклеиновой кислоты. Представление о гене и генетическом коде. Изучение мутаций и их последствий в отношении организма. Обнаружение нуклеиновых кислот в растительных клетках.

    контрольная работа [23,2 K], добавлен 18.03.2012

  • Принципиальные черты устройства автоматических секвенаторов, основные элементы прибора ABI Prism 377, его конструкция и этапы реакции. Ультрацентрифуги как главная часть приборного оснащения биохимической лаборатории, рабочие параметры и применение.

    реферат [71,0 K], добавлен 11.12.2009

  • История открытия дезоксирибонуклеиновой кислоты - биологического полимера, состоящего из двух спирально закрученных цепочек. Первичная структура и конформации компонентов нуклеиновых кислот. Макромолекулярная структура ДНК, полиморфизм двойной спирали.

    презентация [1,1 M], добавлен 07.11.2013

  • Описание процесса онтогенеза как индивидуального развития организма. Ген как элементарная единица наследственности, строение хромосом и дезоксирибонуклеиновой кислоты. Раскрытие содержания учения В. Вернадского о биосфере. Характеристика типов личности.

    контрольная работа [34,6 K], добавлен 10.08.2015

  • Структура дезоксирибонуклеиновой кислоты (ДНК). Секвенирование как метод исследования нуклеиновых кислот. Определение нуклеотидовой последовательности модифицированным методом Максама и Гилберта. Новейшие методы определения последовательности ДНК.

    курсовая работа [385,7 K], добавлен 10.03.2016

  • Партеногенетические виды позвоночных и их особенности размножения. Структура микросателлитных повторов эукариотических геномов. Монолокусный анализ микросателлитсодержащих локусов. Электрофорез дезоксирибонуклеиновой кислоты в полиакриламидном геле.

    дипломная работа [706,2 K], добавлен 27.01.2018

  • Анализ стадий и типов фотохимических реакций. Исследование механизма действия ультрафиолетового излучения на белки и нуклеиновую кислоту. Люминесцентная микроскопия. Описание микроскопов серии "Люмам". Применение люминесцентных меток и зондов в медицине.

    презентация [1009,8 K], добавлен 10.04.2015

  • Рассмотрение сути метода полимеразной цепной реакции. Понятие амплификации как процесса увеличения числа копий дезоксирибонуклеиновой кислоты. Основные принципы подбора праймеров при создании тест-системы. Подготовка пробы биологического материала.

    курсовая работа [610,8 K], добавлен 14.11.2014

  • Организация генома и кодируемые белки вируса иммунодефицита человека. Транскрипция провирусной дезоксирибонуклеиновой кислоты и синтез вирусных веществ. Анализ получения сыворотки и плазмы крови. Характеристика референсных сиквенсов и электрофореграмм.

    дипломная работа [1,3 M], добавлен 04.06.2017

  • Картирование генома для построения физической и генетической карты. Клонирование известных генов и способствование поиску в геноме интересующих клонов, сравнение клонов. Картирование путем подбора пар по методу "отпечатков пальцев" с лигазной обработкой.

    контрольная работа [15,1 K], добавлен 11.08.2009

  • Первичная, вторичная и третичная структуры ДНК. Свойства генетического кода. История открытия нуклеиновых кислот, их биохимические и физико-химические свойства. Матричная, рибосомальная, транспортная РНК. Процесс репликации, транскрипции и трансляции.

    реферат [4,1 M], добавлен 19.05.2015

  • Система зашифровки наследственной информации в молекулах нуклеиновых кислот в виде генетического кода. Сущность процессов деления клеток: митоза и мейоза, их фазы. Передача генетической информации. Строение хромосом ДНК, РНК. Хромосомные заболевания.

    контрольная работа [28,4 K], добавлен 23.04.2013

  • Экспрессия генов - способность контролировать синтез белка. Структура и свойства генетического кода, его универсальность и просхождение. Передача генетической информации, транскрипция и трансляция. Митохондриальный и хлоропластный генетические коды.

    реферат [41,5 K], добавлен 27.01.2010

  • Трансляция клетки как процесс биосинтеза белка, определяемый матричной РНК. Понятие генетического кода, его свойства. Отклонения от универсального генетического кода. Строение рибосом, механизм элонгации и терминации. Белки в эволюции и онтогенезе.

    презентация [2,2 M], добавлен 21.02.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.