Поиск паттернов вторичных структур ДНК и модификаций гистонов

Показано, что G-квадруплексы играют важную роль во многих геномных процессах. Проведен поиск ассоциаций G-квадруплексов с тремя гистоновыми метками – H3K4me3, H3K9ac и H3K27ac. Наличие различий в распределении G-квадруплексных последовательностей.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 10.09.2020
Размер файла 2,8 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ

"НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ

"ВЫСШАЯ ШКОЛА ЭКОНОМИКИ"

ФАКУЛЬТЕТ КОМПЬЮТЕРНЫХ НАУК

МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ

по направлению подготовки 01.04.02

Прикладная математика и информатика

образовательная программа Анализ данных в биологии и медицине

Поиск паттернов вторичных структур ДНК и модификаций гистонов

Студент - Ностаева Арина Вячеславовна

Научный руководитель - доцент М.С. Попцова

Москва

2020

Аннотация

Дипломная работа на тему: «Поиск паттернов вторичных структур ДНК и модификаций гистонов».

В работе - 55 стр., содержащих 25 рис., 11 табл., 52 библиографических источника, 1 приложение.

Абстракт: Достижения в экспериментальном детектировании G-квадруплексов позволили обнаружить их на уровне генома. При этом было показано, что G-квадруплексы играют важную роль во многих геномных процессах. Тем не менее, их связь с эпигенетическим кодом плохо изучена. В данной работе был проведен поиск ассоциаций G-квадруплексов с тремя гистоновыми метками - H3K4me3, H3K9ac и H3K27ac, и были проверены такие гипотезы, как наличие различий в мотивах G-квадруплексов, обогащенных общими и тканеспецифичными гистоновыми метками, и наличие различий в распределении G-квадруплексных последовательностей между этими множествами.

Ключевые слова: G-квадруплексы, гистоновые метки, эпигенетика, машинное обучение

Объект исследования: G-квадруплексы, гистоновые метки H3K4me3, H3K9ac, H3K27ac.

Предмет исследования: связь G-квадруплексов и гистоновых меток

Работа содержит введение, 7 глав, заключение, список литературы и приложение.

Введение включает в себя знакомство с G-квадруплексами, с их ролью в геноме и постановку задачи.

Первая глава посвящена обзору методов детектирования G-квадруплексов и изучению данных по ним.

Вторая глава содержит информацию о данных по гистоновым меткам и методы работы с ними.

Третья глава описывает методы машинного обучения в данном исследовании и результаты по ним.

Четвертая глава содержит описание и результаты анализа ассоциаций между G-квадруплексами и гистоновыми метками.

Пятая глава посвящена поиску связи между G-квадруплексами и гистоновыми метками внутри промоторов.

Шестая глава описывает валидацию результатов, полученных в предыдущей главе.

Седьмая глава содержит информацию по анализу обогащения транскрипционных факторов в множествах G-квадруплексных последовательностей.

В заключении представлены основные выводы - краткое описание выводов по главам, обобщение результатов в виде необходимости дальнейших исследований и описание планов.

Приложение содержит графики, не вошедшие в текст пятой главы.

Annotation

Thesis on the topic: "Search for patterns of DNA secondary structures and histone modifications."

In the work - 55 pages containing 24 figures, 11 tables, 52 bibliographic sources, 1 appendix.

Abstract: Advances in experimental technology for the detection of G-quadruplex have made it possible to detect G4 at the genome level. It has been shows that G4 play an important role in many genomic processes. Nevertheless, the relationship of G4 with the epigenetic code is poorly understood. In this work, we searched for the associations of G-quadruplexes with three histone labels - H3K4me3, H3K9ac and H3K27ac, and tested hypotheses such as the presence of differences in the motifs of G-quadruplexes enriched in common and tissue-specific histone labels, and the presence of differences in the distribution of G-quadruplex sequences between these sets.

Keywords: G-quadruplexes, histone marks, epigenetics, machine learning.

Object of study: G-quadruplexes, histone marks H3K4me3, H3K9ac and H3K27ac.

Subject of study: association of G-quadruplexes and histone marks.

The work contains the introduction, 7 chapters, conclusion, bibliography and appendix.

The introduction includes the introduction to G-quadruplexes, their role in the genome, and problem statement.

The first chapter is devoted to review of detection methods for G-quadruplexes and the study of data on them.

The second chapter contains information on histone label data and methods for working with them.

The third chapter describes the machine learning methods in this study and the results on them.

The fourth chapter contains the description and analysis of the associations between G-quadruplexes and histone labels.

The fifth chapter is devoted to finding the connection between G-quadruplexes and histone marks inside promoters.

The sixth chapter describes the validation of the results obtained in the previous chapter.

The seventh chapter contains information on the analysis of transcription factor enrichment in sets of G-quadruplex sequences.

In conclusion, the main conclusions are presented: the brief description of the conclusions of the chapters, the summary of the results in the form of the need for further research, and the description of the plans.

The appendix contains graphs not included in the text of the fifth chapter.

1

Содержание

  • 1. Введение
    • 1.1 Открытие G-квадруплексов
    • 1.2 Всплеск интереса к G-квадруплексам
    • 1.3 Обнаружение G-квадруплексов in vitro и in vivo
    • 1.4 Изучение эволюционной составляющей G-квадруплексов
    • 1.5 G-квадруплексы в геноме человека
    • 1.6 Взаимодействие лигандов с G-квадруплексами
    • 1.7 Постановка задачи
  • 2. Данные G-квадруплексных последовательностей
    • 2.1 Вычислительные методы
    • 2.2 Экспериментальные данные
    • 2.3 G4-chip 14
    • 2.4 Отбор данных 14
  • 3. Данные гистоновых меток
  • 4. Построение модели машинного обучения
    • 4.1 Постановка вопроса
    • 4.2 Подготовка данных
    • 4.3 Архитектура
    • 4.4 Результаты
    • 4.5 Выводы
  • 5. Поиск ассоциаций в расположении между G-квадруплексами и общими и тканеспецифическими гистоновыми метками
    • 5.1 Оценка ассоциаций
    • 5.2 Валидация результата
    • 5.3 Выводы
  • 6. Связь G-квадруплексов и гистоновых меток в промоторах
    • 6.1 Оценка обогащения
    • 6.2 Валидация результата
    • 6.3 Выводы
  • 7. Валидация результатов на промоторах с потерей структуры
    • 7.1 Описание анализа
    • 7.2 Результат на данных без потери структуры
    • 7.3 Результат на данных с потерей структуры
    • 7.4 Выводы
  • 8. Поиск транскрипционных факторов
    • 8.1 Задача
    • 8.2 Результаты и выводы
  • Заключение
  • Список литературы
  • Приложение

1. Введение

1.1 Открытие G-квадруплексов

В 1910 году немецкий ученый Ivar Bang впервые описал удивительное поведение гуаниловой кислоты в своей статье в Biochemische Zeitschrift [1]. Он отметил, что гуаниловая кислота образует гели при высоких миллимолярных концентрациях и, также, впервые продемонстрировал, что она состоит из эквимолярных количеств гуанина, пентозы и фосфорной кислоты.

Это явление долго оставалось необъяснимым, пока в 1962 году Martin Gellert с коллегами из Национального института здоровья в Бетесде не провели исследования оптических свойств геля и исследования структуры волокон, полученных путем высушивания [2]. Они предположили, что это явление может быть обусловлено образованием спирали гуаниловой кислоты. Для подтверждения этого факта Gellert и коллеги собрали данные дифракции рентгеновских лучей на волокне гуаниловой кислоты и выявили сборку тетрамерных звеньев в большие спиральные структуры (Рисунок 1.1).

Рисунок 1.1: (а) Рентгенограмма 5'-GMP. (б) Рентгенограмма 3'-GMP (препарат I). (c) Рентгенограмма 3'-GMP (препарат II). Ось волокна во всех случаях приблизительно вертикальная.

Эта структура, названная G-квадруплекс, образуется из четырех молекул гуаниловой кислоты в результате их квадратного плоского расположения, в котором каждое из четырех оснований является донором и акцептором двух водородных связей.

Таким образом, история G-квадруплексов насчитывает более ста лет с момента их первого упоминания и более 50 лет с момента описания их структуры.

1.2 Всплеск интереса к G-квадруплексам

Даже после объяснения механизма образования, G-квадруплексы долгое время оставались без особого внимания. Но в 1989 году in vitro было обнаружено, что при определенных ионных условий в эукариотических хромосомах на концах теломерной ДНК короткие, богатые гуанином последовательности могут объединяться с образованием дискретных четырех цепочечных структур. [3] Данное открытие повысило интерес к G-квадруплексам и позволило предположить их возможную роль в биологических процессах.

1.3 Обнаружение G-квадруплексов in vitro и in vivo

If G-quadruplexes form so readily in vitro,

Nature will have found a way of using them in vivo'

(Aaron Klug)

Таким образом, самопроизвольное складывание структур G-квадруплекса in vitro, хоть и после многочисленных биохимических и структурных анализов, было установлено очень давно.

Важную роль в стабилизации G-квадруплексов играют катионы такие, как Na+ или K+. Они занимают центральную полость структуры и нейтрализуют электростатическое отталкивание атомов кислорода (Рисунок 1.2).

Рисунок 1.2: Структура G-квадруплекса, показывающая пару Хугстина с ионом по центру.

При этом стабилизация G-квадруплексов зависит от самих катионов и разнится между ними [4], что подчеркивает важность ионного радиуса. Например, наиболее стабильные G-квадруплексы образуются при K+, затем при Rb+, Na+, Cs+ и Li+.

Также, стабильность G-квадруплексов зависит от самой последовательности сворачиваемого участка цепи. Это такие факторы, как количество G-квартетов, состоящих в укладке, длина и состав петель, образованных негуаниновыми основаниями [5,6]. При этом, исследования структур G-квадруплексов и их образование in vitro показало большое количество различных структурных конфигураций в зависимости от этих факторов, а также от различной ориентации нитей [7].

В 2013 году, Джулия Биффи с коллегами из лаборатории Баласубраманьяна сообщили о создании и применении специфических антител, используемых для количественной визуализации структур G-квадруплекса ДНК в клетках человека [8]. В результате этого, было показано, что образование G-квадруплексов в ДНК модулируется во время клеточного цикла, и их структура может быть стабилизирована с помощью низкомолекулярного лиганда (Рисунок 1.3).

Рисунок 1.3: Стабилизация эндогенных G-квадруплексных структур с помощью низкомолекулярного лиганда. (a) Увеличение числа очагов BG4 в клетках U2OS после обработки лигандом пиридостатином (PDS). (b) Количественное определение количества очагов BG4 на ядро с обработкой PDS или без нее.

Немного позже были изобретены другие инструменты обнаружения G-квадруплексов в живых клетках [9-13].

Таким образом, данные результаты обеспечили существенные доказательства формирования G-квадруплексных структур в геноме клеток млекопитающих и позволили дать представление о возможных функциях G-квадруплексов.

1.4 Изучение эволюционной составляющей G-квадруплексов

Эволюционная консервативность мотива G-квадруплексов дает представление о вероятности его образования и функционирования in vivo, поэтому до открытия G-квадруплексов in vivo были проведены исследования этой темы. Например, в одной из работ было определено, что расположение мотивов G-квадруплексов и их последовательности в геноме S. cerevisiae сохраняются среди шести других видов (Рисунок 1.4) [14].

Рисунок 1.4: Эволюционная консервативность мотивов ДНК G4 между S. cerevisiae и шестью родственными видами дрожжей.

Стоит отметить, что консервативность мотивов по их расположению не означает, что имеются ограничения на способность образовывать G-квадруплексные структуры. Но при этом нуклеотиды в мотиве G-квадруплексов показывали большую консервативность, по сравнению с нуклеотидами вокруг них. Также, мутации, которые ведут к поломке структуры G-квадруплексов, имели более высокое значение консервативности, чем другие нуклеотиды в мотиве.

1.5 G-квадруплексы в геноме человека

Ранний компьютерный анализ человеческого генома с использованием регулярного выражения показал содержание более 300000 последовательностей, которые потенциально способны образовывать структуры G-квадруплексов [15]. Также в геноме человека более 700000 таких последовательностей были детектированы in vitro. При этом было обнаружено, что распределение этих последовательностей неслучайно и коррелирует с функциональными областями генома.

1.5.1 Теломерные повторы

Теломерные концы хромосом, содержащие повторяющиеся G-богатые последовательности ДНК, имеют основополагающее значение для защиты клетки от рекомбинации и деградации. Такие теломерные повторы способны образовывать характерные G-квадруплексные структуры, так называемые «бусы на струне» [16,17]. ДНК и РНК G-квадруплексы очень устойчивы к расщеплению экзонуклеазами, и это может придавать стабильность теломерам, лишенным шапок. Таким образом, структуры G-квадруплексов могут участвовать в защите теломер. Структуры G-квадруплексов также могут облегчать формирование t-петли, что способствует установлению конформации, принятой концами теломер в живых клетках.

1.5.2 Точки начала репликации

С помощью высокопроизводительного секвенирования были получены последовательности коротких зарождающихся цепей ДНК человека. Дальнейший компьютерный анализ показал, что большинство из 250000 исходных репликаций человека соответствует мотивам G-квадруплексов (67%, размер петли 1-7 нуклеотидов) [18]. При этом результат оказался высоко консервативным среди четырех различных типов клеток человека: фибробласты, эмбриональные стволовые клетки, индуцированные плюрипотентные стволовые клетки и клетки HeLa.

1.5.3 Сайты старта транскрипции

Распределение G-квадруплексов в генах RefSeq человека показало их обогащение в областях сайтов старта транскрипции (TSS), 5'-UTR и 5'-конце первого интрона и истощены в областях кодирования (Рисунок 1.5) [19].

Рисунок 1.5: Распределение G-квадруплексов в функциональных областях генома.

Было показано, что промоторные области (более 1000 пар нуклеотидов выше TSS сайта транскрипции) генов значительно обогащены мотивами G-квадруплексов по сравнению с остальной частью генома, при этом >40% промоторов гена человека содержат более одного G-квадруплекса [20]. Кроме того, эти промоторные G-квадруплексы прочно ассоциируются с гиперчувствительными сайтами нуклеаз, идентифицированными по всему геному посредством биохимического измерения. Области человеческого генома, которые являются как гиперчувствительными к нуклеазам, так и внутри промоторов, показывают значительное (в 230 раз) обогащение G-квадруплексных элементов по сравнению с остальной частью генома. Эти G-квадруплексные мотивы, идентифицированные в промоторных областях, также демонстрируют интересный структурный уклон в сторону более стабильных форм.

1.5.4 Онкогены

В промоторах некоторых онкогенов были обнаружены мотивы G-квадруплексных последовательностей, что повлияло на возникновение интереса к разработке лигандов, которые были бы способны связываться с G-квадруплексом и подавлять экспрессию генов [21]. На сегодняшний день эта задача была изучена и решена в ряде лабораторий, и, было разработано большое разнообразие лигандов ДНК и РНК G-квадруплексов [22-30]. При этом лиганды связываются со структурами G-квадруплексов с большей вероятностью в раковых клетка желудка и печени человека по сравнению с неопухолевыми тканями, что подтверждает связь между структурами G-квадруплексов и раком [31].

1.6 Взаимодействие лигандов с G-квадруплексами

Большой интерес в регуляторной роли G-квадруплексов, помимо распределения по функциональным участкам генома, вызывает изучение их взаимодействия с различными лигандами и механизмов их действия.

Было описано множество различных лигандов, нацеленных на G-квадруплексы в отдельных промоторах, но пока что мало исследований посвящено изучению транскрипционных изменений на уровне всего генома [32]. Чтобы определить, является ли рассматриваемый G-квадруплекс основной биологической мишенью, необходимы более тщательно разработанные контроли, так как изменение экспрессии гена-мишени может являться результатом связывания лиганда с другими геномными мишенями.

Так как образование G-квадруплексов в регуляторных участках генома является динамическим и зависит от типа и состояния клеток, можно предположить, что ландшафт G-квадруплексов регулируется с помощью клеточных белков.

И в самом деле было идентифицировано много клеточных белков, которые взаимодействуют с G-квадруплексами [33]. Одним из подходов, применяемым для обнаружения таких белков, является вычислительный анализ сайтов связывания белка, где проводится оценка обогащения предсказанных мотивов G-квадруплексов [34,35].

Некоторые из транскрипционных факторов связывают сайты, содержащие предсказанные мотивы G-квадруплексов, так как они сильно обогащены в промоторных участках. Многие из них проявляют потенциал для образования или раскручивания структур G-квадруплексов in vitro. Например, было проведено исследование, в котором показали, что фактор NM23-H2 распознает и разматывает G-квадруплексную структуру в промоторе MYC [36].

Особый интерес вызывают такие ферменты, как ДНК-метилтрансфераза (DNMT). Она катализирует образование 5-метилцитозина в динуклеотидах CpG клеток млекопитающих. Этот фермент связывается при определенных условиях со структурами G-квадруплексов [37,38], при этом он показывает более сильное взаимодействие с G-квадруплексами по сравнению с дуплексной ДНК и теряет активность после связывания. Результаты исследования взаимодействия DNMT1 и G-квадруплексов между собой в клетках лейкемии человека K562 продемонстрировали, что большее количество G-квадруплексов на островках CpG детектируется там, где DNMT1 связан. Это приводит к предположению, что G-квадруплексы регулируют метилирование ДНК [39].

Взаимодействия G4-белок могут являться мишенью для привлечения механизмов к определенным частям генома, тем самым влияя на широкий спектр клеточных процессов. Учитывая, что ландшафт G-квадруплексов является динамическим и зависит от функционального состояния клеток, белки могут отвечать за регулирование структурной динамики G-квадруплексов по всему геному [40].

1.7 Постановка задачи

Как было отмечено выше, G-квадруплекс имеет много возможностей быть регулятором различных функций в геноме посредством их взаимодействия с белками. При этом часто экспериментальный анализ по выявлению таких взаимодействий сложен и требует больших временных затрат. Другой подход, который использует только вычислительный анализ, состоит в обнаружении паттернов ассоциаций между G-квадруплексами и объектами генома, для которых ставится гипотеза о влиянии на них G-квадруплекса как регулятора.

Основная задача этой работы - это продолжение череды исследований, посвященных поиску взаимосвязи между G-квадруплексами и эпигенетикой. В частности, здесь постановка вопроса касается лишь нескольких гистоновых меток, а именно H3K4me3, H3K9ac и H3K27ac, ввиду их обогащения в промоторных областях, которые часто содержат G-квадруплексные последовательности.

Так как образование G-квадруплексов зависит от типа и состояния клеток, первый вопрос, который был поставлен, звучит следующим образом:

· Есть ли различия в мотивах G-квадруплексов, обогащенных общими гистоновыми метками и тканеспецифичными?

· Есть ли различие в распределении G-квадруплексных последовательностей между общими и тканеспецифичными гистоновыми метками?

Далее, в ходе исследования ставились следующие задачи:

· Есть ли паттерн ассоциаций между промотерами, сцепленными с G-квадруплексами, и гистоновыми метками?

· Есть ли транскрипционные факторы, которые могли бы объяснить найденные различия?

Таким образом, глобальная цель исследования состоит в том, чтобы решить задачу поиска регуляторных ролей G-квадруплексов не через обнаружение их связывания с белками, а в обратном порядке.

2. Данные G-квадруплексных последовательностей

В настоящее время существует немало методов идентификации последовательностей, способных образовывать G-квадруплексные структуры. Все их можно разделить на три типа:

· экспериментальные;

· вычислительные;

· иммунопреципитационные.

2.1 Вычислительные методы

Вычислительные методы обнаружения G-квадруплексов являются одними из самых первых. Их основной механизм действия состоит в биоинформатическом анализе мотивов, в качестве предполагаемой G-квадруплексной последовательности. Эти подходы можно также разделить на несколько типов. Первые из них - это метод поиска регулярных выражений [41, 42]. Также существуют подходы, объединяющие в себе поиск регулярного выражения и систему постановки баллов [43, 44]. Одни из самых последних - это методы с использованием машинного обучения [45].

2.2 Экспериментальные данные

Данные экспериментально наблюдаемых структур G-квадруплексов были получены с помощью метода G4-seq [46]. В этом методе использовалось G4-специфическое торможение полимеразы для обнаружения G-квадруплексов в одноцепочечной геномной ДНК. Выход G4-seq представляет собой профиль уровней базового несоответствия по всему геному, где более высокие участки свидетельствует о более стабильном образовании G-квадруплекса. Как было замечено ранее, в число квадруплексов, идентифицированных методом G4-seq, входят структуры с неканоническими длинными петлями и выпуклые структуры.

2.3 G4-chip

Иммунопреципитационные методы основаны на эксперименте, нацеленного на создание и применение специально созданного антитела BG4. Это структурно-специфическое антитело, используемое для количественной визуализации структур G-квадруплекса ДНК в клетках человека. Их специфичность для G-квадруплексов была подтверждена потерей сигнала при предварительной инкубации антитела с избытком предварительно сложенных G-квадруплексных олигонуклеотидов, но без потери сигнала при предварительной инкубации с одноцепочечными олигонуклеотидам. При этом BG4 не имеет предпочтения какой-либо конкретной конформации G-квадруплексов.

2.4 Отбор данных

Каждый из методов в отдельности обладает своими недостатками. Вычислительные методы не гарантируют того, что потенциальные G-квадруплексные мотивы действительно образуют вторичную структуру. В то же время экспериментальный метод в каждом частном случае не гарантирует то, что в результате опыта была детектирована именно G-квадруплексная структура. Иммунопреципитационные методы ввиду ограниченности эксперимента на определенном типе клеток и при определенных условиях не обладают представлением полной картины распределения G-квадруплексов в геноме.

Таким образом, при использовании лишь одного метода повышается число ложноположительных результатов. Чтобы ослабить этот эффект, в качестве G-квадруплексного набора данных может быть выбрано пересекающееся множество данных.

Рисунок 2.1: Пересечение наборов данных PQS, G4-chip и G4-seq.

Можно заметить, что данные из иммунопреципитационного анализа больше, чем на 80% пересекаются с другими из данных (Рисунок 2.1). При этом иммунопреципитационный метод, как уже было сказано, не дает полной картины, а больше служит для визуализации G4 in vivo. Принимая во внимание эти факты для дальнейшей работы лучше использовать пересечение данных из двух других методов.

В качестве вычислительного метода в данной работе использовался алгоритм PQSfinder. Его можно разделить на три логических этапа:

(i) идентификация всех возможных G-квартетов,

(ii) присвоение баллов и

(iii) разрешение наложенных участков.

3. Данные гистоновых меток

В качестве данных по эпигенетическим меткам были взяты результаты Chip-seq анализа из консорциума ENCODE, содержащие координаты узких пиков в формате bed-файлов. Исследование проводилось для эмбриональных стволовых клеток (ESC) и взрослой ткани человеческого мозга (Adult).

Разделение на общие и тканеспецифические множества производилось с помощью метода MAnorm [47]. Этот метод отличается от простого подхода классификация пиков, где разделение на множества производится с помощью пересечения пиков. MAnorm основан на допущение о том, что интенсивности, т.е. сигналы, общих пиков являются одинаковыми между двумя образцами ChIP-Seq. Данное допущение верно, если области, представленные общими пиками, показывают гораздо более высокий уровень совместной локализации между образцами, чем если бы это ожидалось случайным образом. Предполагается, что наблюдаемые различия в плотности считывания последовательностей в общих пиках отражают отношение масштабирования сигналов ChIP-Seq между двумя выборками, которое, таким образом, может применяться ко всем пикам.

Основываясь на этих гипотезах, строится зависимость отношения плотности считывания между двумя образцами (M) от средней плотности считывания (A) для всех пиков, и применяется робастная линейная регрессия для выявления зависимости между значениями MA общих пиков. Затем линейная модель используется для нормализации и экстраполирования на все пики (Рисунок 3.1). Нормализованное значение М используется в качестве количественной меры дифференциального связывания в каждой области пика между двумя образцами, причем области пиков, связанные с большими абсолютными значениями М, демонстрировали большие различия в связывании.

4. Построение модели машинного обучения

4.1 Постановка вопроса

Первый этап данного исследования состоял в том, чтобы ответить на вопрос, различаются ли общие и тканеспецифические множества квадруплексов, определенные по гистоновым меткам, без привязки к их локализации в геноме. Иначе говоря, можно ли различить последовательности мотивов квадруплексов этих двух множеств.

Чтобы ответить на этот вопрос, была создана и обучена модель машинного обучения, основанная на сверточных нейронных сетях (CNN). Применение CNN для задач, основанных на биологических последовательностях началось с 2015 года [48, 49] и с тех пор продолжает активно развиваться. Примером использования CNN для решения биологических задач может служить одна из последних работ, связанных с классификацией парных выравниваний последовательностей и их точной кластеризации [50].

Адаптация CNN к задачам геномики происходит за счет рассмотрения последовательности нуклеотидов в качестве изображения. Вместо обработки двухмерного изображений с тремя цветными каналами (R, G, B), рассматривается последовательность генома как одномерное окно фиксированной длины с четырьмя каналами (A, C, G, T).

4.2 Подготовка данных

В данной работе, последовательности квадруплексов удлинялись по геному до окна размера 500 нуклеотидов. Затем использовался метод one-hot encoding, преобразующий нуклеотидную последовательность в изображение размера 500х4.

Всего, для каждой гистоновой метки, рассматривалось два класса объектов - это квадруплексы, пересекающиеся с общими гистоновыми метками и c тканеспецифичными. Из-за разности в объемах каждого из трех множеств (ESC, Common и Adult) полностью брались самые малочисленные множества, либо специфичные по ESC, либо специфичные по взрослой ткани, и затем случайно извлекалось такое же количество объектов множества, специфичного по другой ткани. Объединение получившихся множеств давало первый класс в итоговом наборе данных. Для второго класса, также случайно, бралось суммарное количество объектов тканеспецифичного класса из множества, специфичного общим гистоновым меткам. В итоге получались сбалансированные наборы данных объемов 16444, 35244 и 62152 для гистоновых меток H3K4me3, H3K9ac и H3K27ac, соответственно.

Чтобы избежать неточности в интерпретации результатов, был проведен анализ на GC состав с помощью RSAT peak-motifs (Рисунок 4.1-3).

Рисунок 4.1: Нуклеотидный состав квадруплексов, ассоциированных с общими и тканеспецифичными гистоновыми метками H3K4me3: a) ESC, b) Common, c) Adult

Рисунок 4.2: Нуклеотидный состав квадруплексов, ассоциированных с общими и тканеспецифичными гистоновыми метками H3K9ac: a) ESC, b) Common, c) Adult

Рисунок 4.3: Нуклеотидный состав квадруплексов, ассоциированных с общими и тканеспецифичными гистоновыми метками H3K27ac: a) ESC, b) Common, c) Adult

Он показал, что последовательности трех множеств отличаются по нуклеотидному составу. Чтобы устранить этот эффект, была использована операция bedtools nuc с учетом направления цепи, которая подсчитывала GC-состав каждой последовательности. Далее, для самого малочисленного множества определялось среднее значение GC-состава. Для двух других множеств отбирались только те последовательности, GC-состав которых лежал в диапазоне:

Затем, из выбранных последовательностей случайным образом извлекалось множество, объемом, равным объему самого малочисленного множества. В итоге получались сбалансированные наборы данных, которые также имеют одинаковый GC-состав (Таблица 4.1).

Таблица 4.1: Среднее значение GC-состава в тканеспецифических и общих множествах

ESC

Common

Adult

H3K4me3

0.5912

0.5934

0.5813

H3K27ac

0.5953

0.6029

0.5958

H3K9ac

0.6358

0.6407

0.6278

4.3 Архитектура

Архитектура сети, применяемой в этой работе, состоит из двух слоев Convolution_2D, чередуемых со слоями MaxPooling2, и двух полносвязных слоев Dense (Рисунок 4.4). На всех слоях, кроме выходного полносвязного слоя, используется функция активации ReLU, последний же слой использует sigmoid. Для регуляризации модели после последнего слоя подвыборки и первого полносвязного слоя применяется слой Dropout.

Рисунок 4.4: Архитектура сверточной нейронной сети

В результате подбора были выбраны следующие гиперпараметры (Таблица 4.2):

Таблица 4.2: Гиперпараметры сверточной нейронной сети.

Kernel size for convolution

3, 7

Number of kernels

50, 50

Dropout probability

0.5, 0.5

Hidden_size

128

В качестве функции потерь использовалась бинарная кросс-энтропия, в качестве оптимизатора - оптимизатор Adam. Так как исходные данные были распределены равномерно по классам, в качестве метрики использовалась accuracy.

Тренировочные данные составляли 70% от всех имеющихся, при этом для оценки качества модели использовалась кросс-валидация с разбиением тренировочных данных на 10 частей.

4.4 Результаты

В результате обучения сеть показала неплохое качество (Рисунок 4.5).

Рисунок 4.5: ROC-кривые обучения на корректных данных.

Так как цель состояла не в построении модели машинного обучения, дающего наивысшую точность классификации, дальнейшего улучшения сети сделано не было. Из результатов можно видеть, что сеть способна различить последовательности двух классов с довольно приемлемой точностью. Это может говорить о том, что последовательности квадруплексов, ассоциируемых с общими гистоновыми метками, действительно отличаются от тканеспецифических последовательностей квадруплексов.

Чтобы убедиться том, что дело именно в данных, а не в том, что сеть слишком хороша и может распознать даже, по сути, ничем не различающиеся классы, по каждой гистоновой метке были созданы наборы данных, где метка класса проставлялась рандомно.

Оказалось, что в этом случае сеть совершенно не справляется с задачей и оказывается равной рандомному генератору меток (Рисунок 4.6).

Рисунок 4.6: ROC-кривые обучения на рандомных данных.

4.5 Выводы

Полученные результаты дают основание полагать, что последовательности G-квадруплексов, ассоциированных с общими и тканеспецифичными гистоновыми метками, действительно различаются. Но так как G-квадруплексные последовательности, участвующие в анализе, не самодостаточны, то есть имеет место быть консенсус, который мог повлиять на результат анализа, проведенного исследования недостаточно. Чтобы более четко увидеть связь G-квадруплексов с общим или тканеспецифическими множествами гистоновых меток, нужно провести анализ их взаимного расположения по геному.

5. Поиск ассоциаций в расположении между G-квадруплексами и общими и тканеспецифическими гистоновыми метками

5.1 Оценка ассоциаций

Чтобы проверить гипотезу о различии в предрасположенности G-квадруплексов к тканеспецифическим или общим гистоновым меткам, был проведен пермутационный тест, который позволяет получить статистическую оценку ассоциации между подмножеством регионов и целевым набором.

Тест выполнялся для каждого из трех множеств в качестве подмножества всех гистоновых меток H3K4me3, H3K9ac, H3K27ac и множеством G-квадруплексных последовательностей в качестве целевого набора. В качестве рандомизации использовалась функция, которая собирала случайную выборку такого же размера, что и исследуемое подмножество, из общего множества регионов. На Рисунках 5.1-3 приведен результат для гистоновой метки H3K4me3.

Рисунок 5.1. Результат пермутационного теста для тканеспецифичного множества H3K4me3 по взрослой ткани и G4

Рисунок 5.2. Результат пермутационного тест для тканеспецифичного множества H3K4me3 по ESC ткани и G4.

Рисунок 5.3. Результат пермутационного тест для общего множества H3K4me3 и G4.

Результаты показывают значимое обогащение G-квадруплексными мотивами общим подмножеством гистоновой метки H3K4me3 и противоположный результаты для тканеспецифических наборов данных. Аналогичные результаты наблюдаются для гистоновых меток H3K9ac и H3K27ac (см. Приложение).

5.2 Валидация результата

На первый взгляд эти результаты можно интерпретировать как наличие связи между G-квадруплексными последовательностями и подмножеством общих гистоновых меток. Но стоит учесть тот факт, что и исследуемые множества гистоновых меток, и множество G-квадруплексов обогащены в промоторных областях. Таким образом нужно проверить, является ли множество промоторных последовательностей фактором, затрудняющим оценку причинно-следственной связи в этом случае.

Для это был также проведен пермутационный тест, но за целевое множество были взяты последовательности промоторов. Результаты представлены на Рисунках 5.4-6.

Рисунок 5.4: Результат пермутационного тест для тканеспецифичного множества H3K4me3 по взрослой ткани и TSS

Рисунок 5.5: Результат пермутационного тест для тканеспецифичного множества H3K4me3 по ESC ткани и TSS

Рисунок 5.6: Результат пермутационного тест для общего множества H3K4me3 и TSS

Результаты показывают, что множество промоторных последовательностей действительно являются ключевым звеном в связи G-квадруплексных последовательностях и наблюдаемых гистоновых меток.

Можно предположить, что причины данного результата могут скрываться в наличие большого числа ложноположительных результатов для тканеспецифичных множеств, но учитывая столь большие различия, шум не может являться объяснением.

Аналогичный исход также наблюдается и для гистоновых меток H3K9ac и H3K27ac (см. Приложение).

5.3 Выводы

В результате этого этапа анализа ассоциаций между G-квадруплексными последовательностями и общими или тканеспецифическими гистоновыми метками выявлено не было. Но так как причиной является высокая сосредоточенность и G-квадруплекных последовательностей, и гистоновых меток в промоторах, было бы интересно изучить наличие их взаимосвязи внутри этих регионов.

6. Связь G-квадруплексов и гистоновых меток в промоторах

6.1 Оценка обогащения

Вопрос, который ставится в этой части исследования, звучит следующим образом: имеется ли значимое обогащение промоторов, содержащих G-квадруплексы, гистоновыми метками.

В качестве множества промоторных областей брались участки в 1000 нуклеотидов вверх от TSS (transcription start site). Далее множество промоторных регионов пересекалось с множеством G-квадруплексных последовательностей и разделялось на две группы в зависимости от наличия G-квадруплексной последовательности. Каждое из получившихся множеств разбивалось еще на два: с гистоновой меткой и без по каждой из тканей.

В итоге имелись две таблицы сопряженности: для эмбриональной стволовой и для взрослой ткани головного мозга (Таблицы 6.1 и 6.2).

Таблица 6.1: Таблица сопряженности H3K4me3 для ESC

H3K4me3+

H3K4me3-

Promoter with G4

2041

852

Promoter without G4

9539

6879

Таблица 6.2: Таблица сопряженности H3K4me3 для взрослой ткани

H3K4me3+

H3K4me3-

Promoter with G4

2025

868

Promoter without G4

9493

6925

Для каждой из них был проведен тест Фишера, который показал значимость 2.04e-37 и 1.02e-35 для эмбриональной стволовой и взрослой тканей соответственно.

6.2 Валидация результата

Опять же, на первый взгляд из этих данных видно значимое обогащение промоторов, содержащих G-квадруплексные последовательности, гистоновыми метками по обоим из тканей. Но полученный результат можно попытаться объяснить наличием связи гистоновой метки с другими объектами.

Известно, что наличие гистоновой метки H3K4me3 в промоторах связано с повышенным уровнем GC контента [51]. Так как структура G-квадруплексных последовательностей ДНК имеет предрасположенность к повышенному уровню гуанинов, логично предположить, что множество G-квадруплексных последовательностей также предрасположено к промоторам, имеющим повышенный уровень GC контента. Таким образом промоторы с высоким GC% могут выступать в роли вмешивающегося фактора.

Чтобы проверить данную гипотезу был проведен следующий вычислительный анализ. Множество промоторных последовательностей, описанных в предыдущем анализе, сортировалось в зависимости от имеющегося у промотора уровня GC контента по убыванию. Затем, начиная с самого первого в отсортированном наборе, промоторы включались в множество, для которого определялась доля членов, имеющих G-квадруплексную последовательность в своем составе (Рисунок 6.1).

Рисунок 6.1: Схема подготовки таблицы для анализа

Таким образом, получившийся график отображает зависимость доли обнаруженных промоторов, сцепленных с G-квадруплексами, от уровня GC% в них.

Рисунок 6.2: График изменения доли промоторов с G4 и H3K4me3. Синяя линия - доля промоторов с G4, зеленая - доля промоторов с H3K4me3 по ESC ткани, красная - доля промоторов с H3K4me3 по взрослой ткани. Голубая закрашенная область - наименьший уровень GC контента промоторов в текущем множестве.

Из Рисунке 6.2 видно, что чем больше промоторов из отсортированного множества включается в анализ, тем самым уменьшая средний уровень GC, тем меньше доля обнаруженных G4-промоторов. Аналогичный результат на графике представлен и для доли промоторов, пересекающихся с гистоновой меткой H3K4me3. Из этого следует, что обогащение гистоновыми метками промоторов с G-квадруплексными последовательностями может объясняться повышенным GC контентом, с которым связано и расположение исследуемых гистоновых меток H3K4me3, и наличие G-квадруплексных последовательностей.

Аналогичный анализ был проведен для гистоновых меток H3K9ac и H3K27ac. Тест Фишера показал намного менее значимые результаты, чем для гистоновой метки H3K4me3 (Таблица 6.3-6). Для метки H3K9ac эти результаты составили 2.37e-06 и 1.226e-14 для эмбриональной стволовой и взрослой тканей соответственно, и для метки H3K27ac -- 0.0336 и 0.00067.

Таблица 6.3: Таблица сопряженности H3K9ac для ESC

H3K9ac+

H3K9ac-

Promoter with G4

1335

1558

Promoter without G4

6800

9618

Таблица 6.4: Таблица сопряженности H3K9ac для взрослой ткани

H3K9ac+

H3K9ac-

Promoter with G4

1611

1282

Promoter without G4

7864

8554

Таблица 6.5: Таблица сопряженности H3K27ac для ESC ткани

H3K27ac+

H3K27ac-

Promoter with G4

773

2120

Promoter without G4

4704

11714

Таблица 6.6: Таблица сопряженности H3K27ac для взрослой ткани

H3K27ac+

H3K27ac-

Promoter with G4

1302

1591

Promoter without G4

6785

9633

Это согласуется с графиками зависимости доли обнаруженных промоторов, сцепленных с G-квадруплексами и гистоновыми метками, от уровня GC% в них (Рисунок 6.3-4).

Рисунок 6.3: График изменения доли промоторов с G4 и H3K9ac. Синяя линия - доля промоторов с G4,

Зеленая - доля промоторов с H3K9ac по ESC ткани, красная - доля промоторов с H3K9ac по взрослой ткани. Голубая закрашенная область - наименьший уровень GC контента промоторов в текущем множестве.

Рисунок 6.4: График изменения доли промоторов с G4 и H3K27ac. Синяя линия - доля промоторов с G4

Зеленая - доля промоторов с H3K27ac по ESC ткани, красная - доля промоторов с H3K27ac по взрослой ткани. Голубая закрашенная область - наименьший уровень GC контента промоторов в текущем множестве.

6.3 Выводы

Из результатов данной части исследования было получено, что чем меньше связь гистоновой метки с уровнем GC контента в промоторах, тем меньше значимость связи с G-квадруплексами в них. Таким образом, можно сделать вывод, что обогащение гистоновыми метками промоторов с G-квадруплексными последовательностями является следствием повышенного уровня GC контента. С другой стороны, данный результат можно объяснить тем, что встретить G-квадруплексную структуру в промоторных областях с большим GC% действительно более вероятно.

7. Валидация результатов на промоторах с потерей структуры

7.1 Описание анализа

Остается неясным, что является первостепенным фактором в наблюдаемой связи G4-гистоновые метки: повышенный GC% и как следствие повышенный уровень детектированных G-квадруплексных последовательностей, или противоположная ситуация.

Таким образом вопрос, ставящийся на данном этапе исследования, звучит следующим образом:

· Насколько сильно наблюдаемая зависимость уровня детектирования G-квадруплексных последовательностей от GC% отличается от ожидаемой?

Для это нужно сравнить результаты анализа для реальных последовательностей и для последовательностей с аналогичным GC составом, но с потерей структуры.

Детектирование G-квадруплексов после потери структуры в данной работе возможно только вычислительным подходом. Так как первоначальный набор данных G-квадруплексных последовательностей был результатом пересечения экспериментального и вычислительного множеств, было бы некорректно проводить сравнение с этими результатами. Поэтому, для этого этапа в качестве набора G-квадруплексных последовательностей на реальных данных использовалось множество, полученное только вычислительным методом с помощью PQSfinder. Получение последовательностей с потерянной структурой проводилось обычным методом перемешивания нуклеотидов.

Таким образом множество промоторных регионов проходило через два сценария: детектирование G-квадруплексных структур на реальных данных и детектирование после перемешивания последовательностей.

7.2 Результат на данных без потери структуры

В первой части этого исследования, на реальных данных, график зависимости доли обнаруженных промоторов, сцепленных с G-квадруплексами, от уровня GC контента в них показал такой же характер убывания, как и в предыдущем анализе, на множество G-квадруплексных последовательностях, полученным с учетом экспериментальных данных. Стоит заметить отличие в их долях промоторов, сцепленных с G-квадруплексами, на всем множестве промоторов: в случае G-квадруплексов, детектированных вычислительно-экспериментально, это значение составило 0.15, в другом случае 0.4, что объясняется разницей в объеме множеств G-квадруплексов.

График изменения доли промоторов с G4 представлен на Рисунке 7.1.

Рисунок 7.1: График изменения доли реальных промоторов с G4.

7.3 Результат на данных с потерей структуры

Во второй части, нарушение промоторной структуры проводилось 100 раз, в каждом из которых вычислялась максимальная оценка нахождения G4, по которой определялось наличие G4 последовательности в данном промоторе. Далее результат усреднялся на количество проведенных перемешиваний, и в итоге принадлежность промотора к группе с G-последовательностью определялось по этому усредненному значению как большее 0.5.

Видно, что в случае потери структуры доля промоторов с G4 резко падает по сравнению с реальной картиной (Рисунок 7.2). При этом общая доля промоторов, сцепленных с G-квадруплексами на всем множестве промоторов, оказалась равной 0.09, что сильно меньше по сравнению с теми же результатами на реальных данных.

Рисунок 7.2: График изменения доли реальных промоторов с G4.

7.4 Выводы

Полученные различия можно интерпретировать как ответ на поставленный вопрос следующим образом. Так как обнаружение квадруплексных структур в промоторных регионах происходит чаще, чем это ожидается по уровню GC контента, и при этом скорость изменения доли таких промоторов в зависимости от GC контента постоянная, в отличие от ожидаемой, где с уменьшением значения GC контента уровень обнаружения G-квадруплексных последовательностей резко падает, можно сделать вывод, что G-квадруплексные последовательности перепредставлены в промоторах, по сравнению с ожидаемым уровнем GC контента.

8. Поиск транскрипционных факторов

8.1 Задача

Биоинформационные исследования, показывающие обогащение квадруплексов как перед, так и после начала старта транскрипции, обеспечивают дополнительную поддержку биологической значимости этих структур в контроле транскрипции.

После начала транскрипции транскрипционный пузырь генерирует временно открытые одноцепочечные сегменты, способные складываться в квадруплексные структуры. Одним из предполагаемых способов регуляции транскрипции посредством квадруплексов может быть их образование в областях перед TSS. Это может вызывать как положительные, так и отрицательные эффекты на транскрипцию в зависимости от их способности вмешиваться в связывание РНК-полимеразы II или факторов транскрипции, рекрутировать связывающиеся с ними белки или поддерживать открытую конформацию ДНК, которая облегчает повторную инициацию транскрипции.

В рамках данной работы ставилась задача определения сайтов транскрипционных факторов, которые значительно обогащены в квадруплексных регионах, отнесенных к тому или иному множеству гистоновых меток.

Для решения этой задачи использовался инструмент ReMap, осуществляющий интегративный анализ экспериментов ChIP-seq с регуляторами транскрипции из наборов данных Public и Encode. С его помощью было осуществлено аннотирование квадруплексных регионов сайтами связывания транскрипционных факторов с расчетом статистического обогащения транскрипционных факторов в этих регионах.

8.2 Результаты и выводы

В таблицах 8.1-3 приведены по 30 транскрипционных факторов с самой высокой значимостью.

Таблица 8.1: H3K4me3

ESC

-log10(E-value)

Common

-log10(E-value)

Adult

-log10(E-value)

KDM4A

2,144.189

ZBTB7A

75,300.099

HSF1

7,605.348

HEXIM1

1,797.848

KDM4A

74,114.393

STAG1

7,343.122

ZBTB7A

1,737.716

RBBP5

69,873.05

CTCF

6,353.78

HSF1

1,528.52

TRIM24

67,696.603

ZBTB7A

4,242.996

JARID2

1,408.533

KDM5B

64,328.071

HEXIM1

4,199.041

RBBP5

1,386.65

PHF8

62,251.507

MAX

3,776.981

STAG1

1,356.237

HEXIM1

60,871.536

KDM5B

3,771.125

POU5F1

1,332.826

HSF1

59,945.055

NR2F1

3,379.829

CTCF

1,282.981

TAF1

59,922.614

BRD4

3,121.237

MAX

1,101.848

MAZ

59,697.906

ZNF263

3,006.49

KDM5B

1,093.686

CTCFL

57,190.792

MYC

2,876.775

ERG

1,026.855

SIN3A

53,847.092

MAZ

2,867.852

CTCFL

1,013.639

KLF9

53,746.254

KLF9

2,760.525

E2F6

993.112

HDAC2

53,154.027

ERG

2,687.25

EP300

962.231

ELF1

51,868.289

FLI1

2,625.416

TRIM24

954.735

E2F6

51,589.843

POU5F1

2,463.71

SUZ12

938.173

POU5F1

49,940.496

STAT3

2,302.918

STAT3

838.058

MAX

49,676.891

ELF1

2,226.282

BRD4

833.712

CDK9

49,289.274

TCF12

2,065.658

HDAC2

825.265

MXI1

48,883.034

CDK9

1,927.293

NR2F1

762.377

TAF3

47,548.885

SMC3

1,856.399

Таблица 8.1: H3K4me3

ESC

-log10(E-value)

Common

-log10(E-value)

Adult

-log10(E-value)

TP63

748.067

STAG1

47,415.708

E2F6

1,851.664

EZH2

706.197

SMARCB1

47,306.008

RBBP5

1,847.577

NANOG

700.034

MYCN

47,247.27

TP63

1,807.348

PHF8

691.526

ERG

45,699.04

YY1

1,804.46

CTBP2

665.386

YY1

45,514.927

KDM6B

1,797.676

ELF1

658.794

FLI1

44,851.704

EP300

1,791.013

CDK9

654.997

ETS1

44,169.076

RAD21

1,750.551

TAF1

639.363

NRF1

43,532.147

SMARCB1

1,708.832

MAZ

636.857

CHD2

43,150.322

REST

1,705.965

Таблица 8.2: H3K9ac

ESC

-log10(E-value)

Common

-log10(E-value)

Adult

-log10(E-value)

KDM4A

3,391.882

ZBTB7A

67,682.133

STAG1

19,094.087

RBBP5

2,890.246

RBBP5

59,553.638

HSF1

18,633.382

CTCF

2,832.532

TRIM24

59,491.231

CTCF

16,227.563

STAG1

2,757.875

KDM4A

59,189.127

HEXIM1

10,966.435

HSF1

2,665.061

KDM5B

58,177.391

ZBTB7A

10,286.657

POU5F1

2,658.856

HSF1

56,508.495

NR2F1

8,979.954

HEXIM1

2,414.883

PHF8

56,004.153

KDM5B

8,224.836

ZBTB7A

2,393.319

MAZ

54,853.995

ZNF263

7,569.11

JARID2

2,319.46

HEXIM1

54,533.903

MAX

7,180.066

KDM5B

2,247.367

TAF1

53,792.442

BRD4

7,047.094

MAX

2,144.193

KLF9

50,063.13

MYC

6,565.264

E2F6

2,004.002

CTCFL

49,858.696

MAZ

6,256.625

Таблица 8.2: H3K9ac

ESC

-log10(E-value)

Common

-log10(E-value)

Adult

-log10(E-value)

ERG

1,867.15

ELF1

47,235.374

KLF9

5,406.056


Подобные документы

  • Аннотация и инструменты базы BioCyc. Варианты поиска BioCyc. Поиск генов, белков, РНК и соединений. Поиск сайтов ДНК или мРНК, рост Медиа. Анализ поиска в полнотекстовых статьях. Ключевые аспекты данных BioCyc. Поиск кросс-организма и поиск BLAST.

    презентация [5,3 M], добавлен 11.06.2019

  • База данных "Эталон" НПИЦ министерства юстиции РФ. Поиск информации в справочно-информационной программе системе "Консультант плюс" и "Гарант". Сквозной поиск из главного раздела "законодательство". Классификатор подключенных печатных изданий.

    реферат [742,7 K], добавлен 12.04.2009

  • Поиск в массивах и списках, ключ и произвольные данные. Линейный (последовательный) поиск. Бинарный поиск в упорядоченном массиве. Алгоритм Рабина-Карпа, простая и улучшенная хэш-функция. Алгоритм Бойера-Мура со сдвигом по стоп-символам и по суффиксам.

    презентация [1,5 M], добавлен 19.10.2014

  • Характеристика поисковых систем Yandex, Google, Rambler: сходства и отличия, преимущества и недостатки. Поиск определения ряда терминов, программных продуктов. Поиск информации по направлениям: писатели и поэты, их произведения, доктора наук для Самары.

    контрольная работа [17,4 K], добавлен 22.08.2011

  • Поиск вредоносных программ по средствам программ антивирусных. Выбор формата представления данных. Интерфейс программы, ее тестирование и отладка. Список процедур, их назначение. Поиск как средство для облегчения, удобства, надежности работы на ПК.

    курсовая работа [22,4 K], добавлен 17.05.2013

  • Разработка набора взаимосвязанных классов для реализации Hash-поиска как специализированного контейнера. Поиск с использованием Хэш-функций. Объектная технология. Описание пользовательского интерфейса. Листинг и описание всех классов библиотеки на DP.

    курсовая работа [231,2 K], добавлен 15.10.2008

  • Организация поиска информации по заданной теме в сети Интернет. Поиск с помощью поисковых машин. Преимущества и недостатки метода поиска по ключевому слову (фразе). Поиск в каталогах информационных ресурсов. Преимущества и недостатки предметных каталогов.

    курсовая работа [47,5 K], добавлен 03.11.2010

  • Приемы поиска информации в Интернете. Поиск по известному адресу, конструирование адреса пользователем. Специальные информационно-поисковые системы: классификационные (рубрикаторы) и словарные. Поиск информационных ресурсов по различным направлениям.

    реферат [27,1 K], добавлен 03.04.2010

  • Сбалансированные многоходовые деревья поиска. Исследование структуры B+-дерева, её основные операции. Доказательство их вычислительной сложности. Утверждение о высоте. Поиск, вставка, удаление записи, поиск по диапазону. B+-деревья в системах баз данных.

    курсовая работа [705,5 K], добавлен 26.12.2013

  • Хранение таблиц, тип единицы распределения. Типичный размер блока записей. Таблица, в которой записи упорядочены по значению ключа. Кластерный индекс и В-дерево. Поиск с помощью индекса, способы его определения. Функции Hash мультипликативного метода.

    презентация [345,0 K], добавлен 06.01.2014

  • Состав DЕLPHI проекта. Алгоритм сортировки вектора. Метод сортировки файла. Сценарий интерфейсного диалога пользователя с программой. Поиск и вычисление времени, затраченного на поиск и сортировку. Исходный текст модуля Project.dpr, MainForm.pas.

    курсовая работа [827,4 K], добавлен 07.11.2010

  • Информационная революция, которую сейчас переживает общество. Проведение структурного анализа документов. Поиск аналоговой информации в системных областях. Поиск информации через сеть интернет. Виды поисковых ресурсов: каталоги и поисковые роботы.

    курсовая работа [58,6 K], добавлен 16.12.2012

  • Текстовые базы данных. Библиотеки исходников программного обеспечения. Механизм для нахождения заданного термина в тексте. Поиск без использования индекса. Степени детализации индекса. Расширенный информационный поиск. Латентное сингулярное разложение.

    презентация [131,7 K], добавлен 11.10.2013

  • Поиск информации в Интернет. Поисковые системы общего назначения. Поиск по ключевым словам и в иерархической системе каталогов. Формирование почтовых сообщений. Подпись в электронном письме. Работа с адресной книгой. Вставка адреса в сообщение.

    реферат [33,7 K], добавлен 06.06.2011

  • Практическое обоснование выгодности использования web-модуля "Расширенный поиск по сайту". Схема отображения процесса ввода и запроса информации. Описание алгоритма и модель решения задачи. Структура и характеристика базы данных расширенного поиска.

    дипломная работа [2,4 M], добавлен 19.01.2017

  • Поиск по заданному критерию, содержание данного процесса и особенности его использования для решения головоломки "игра в восемь". Методы экономии пространства для поиска по заданному критерию, потребность алгоритма А в ресурсах времени и пространства.

    презентация [121,6 K], добавлен 17.10.2013

  • Защита информации и ее сжатие. Поиск, распознавание информационных объектов (текста и образов). Роль ключа в шифровании. Прогнозирование временных рядов. Классификация документов, выбор и оценка многокритериальных альтернатив. Принятие решений и вывод.

    реферат [140,1 K], добавлен 19.10.2008

  • Особенности работы "поисковика" дублирующихся файлов на диске. Выбор среды программирования. Разработка программного продукта. Основные требования, предъявляемые к программе, производящей поиск дублирующихся файлов на диске. Отображение скрытых файлов.

    курсовая работа [1,8 M], добавлен 28.03.2015

  • Структура и принципы построения сети Интернет, поиск и сохранение информации в ней. История появления и классификация информационно-поисковых систем. Принцип работы и характеристики поисковых систем Google, Yandex, Rambler, Yahoo. Поиск по адресам URL.

    курсовая работа [3,6 M], добавлен 29.03.2013

  • Решение задачи на тему максимизации функций многих переменных. Описание метода дихотомии, его применение для решения нелинейных уравнений. Решение данной задачи с использованием метода покоординатного спуска. Составление алгоритмов, листинг программы.

    курсовая работа [138,5 K], добавлен 01.10.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.