Анализ видоспецифичных генов Bacillus subtilis

Понятие и причины возникновения видоспецифичных геномов в природе. Изучение свойств белков из генома Bacillus subtilis. Анализ длины аминокислотных последовательностей, аминокислотного состава и числа трансмембранных доменов видоспецифичных белков.

Рубрика Биология и естествознание
Вид статья
Язык русский
Дата добавления 29.10.2018
Размер файла 58,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Московский Госудаственный Университет

им. М.В. Ломоносова.

Факультет Биоинженерии и Биоинформатики.

Анализ видоспецифичных генов Bacillus subtilis

Тютор: Меркеев Игорь Валентинович

Супервайзер: Миронов Андрей Александрович

Работа студента второго курса

Панчина Александра Юрьевича

Москва 2004

All the lonely people, where do they all come from?

All the lonely people, where do they all belong?

-John Lennon / Paul McCartney.

Видоспецифичным геном (ВГ) называется такой ген, который не имеет сходства ни с одним известным в базе данных геном из других организмов. Образование таких генов может вносить существенный вклад в дивергенцию видов и, соответственно в эволюцию живых организмов. Показано, что процент видоспецифичных генов в прокариотических геномах может варьировать от незначительных величин (1.26% у Rickettsia conorii) до очень существенных (53.2% у Aeropyrum pernix). В среднем, процент ВГ в известных прокариотических геномах выше, чем в эукариотических геномах, что, возможно, связано с более высокими темпами эволюции первых. Современные базы данных отображают лишь небольшую часть генетического разнообразия земной жизни и содержат значительное число неправильно аннотированных генов, что затрудняет изучение ВГ. Это приводит к необходимости разработки методик, позволяющих снизить систематические погрешности при работе с ВГ. В представленной работе описывается двухэтапный метод подсчета процента ВГ в геноме, который был опробован на примере генома Bacillus subtilis. Этот метод предсказывает наличие у Bacillus subtilis около 10.9% ВГ, что близко к среднему значению ВГ для прокариот, рассчитанному из раннее опубликованных материалов [2], равному 12.7%. Количество артефактных генов среди ВГ можно оценить путем сравнения свойств белков, которые они кодируют со свойствами хорошо анотированных белков. Анализ длины аминокислотных последовательностей, аминокислотного состава и числа трансмембранных доменов видоспецифичных белков, приведенный в данной работе, вопреки первоначальным ожиданиям, не подтверждает наличия среди кодирующих их генов значительного числа ложных генов. Это возможно связано с функциональной ролью видоспецифичных белков в прокариотческих организмах.

Введение

Видоспецифичным геном (ВГ, Orphan gene) называется такой ген, который не имеет сходства ни с одним известным в базе данных геном из других организмов (под геном в данной работе подразумевается любая открытая рамка считывания, которая, возможно, кодирует белок). ВГ представляют особый интерес, поскольку они могут кодировать уникальные белки, которые могут играть существенную роль в видообразовании, т.е. приданию организму его уникальных свойств, что и делает его конкретным видом.

Рассмотрим основные гипотезы, объясняющие как такие гены могут возникать в природе.

При изменении условий окружающей среды многие белки, которые раньше отвечали за ценные приспособления могут оказаться ненужными или даже вредными для организма. Мутации в генах, кодирующих эти белки, перестанут негативно влиять на приспособленность организма, и они начнут быстро мутировать, и в результате, их последовательность может стать уникальной.

Альтернативной предпосылкой для того, чтобы ген начал быстро изменяться, является дупликация гена. При этом одна копия остается неизменной, сохраняя возможность для образования функционального белка, а другая быстро мутирует.

Видоспецифичные гены могут возникать в результате длительного процесса эволюции путем одиночных замен. При этом можно предположить, что процент видоспецифиных генов в геноме организма будет тем больше, чем более далекими для него окажутся виды, чьи геномы представлены в базе данных. Эту идею выдвинули авторы статьи [2] на основе исследований числа одиночных генов в 20 прокариотах.

Возможно, что эти гены на самом деле не являются видоспецифичными. Просто организмы с похожими генами еще не просиквенированы.

Следует отметить, что в случаях 1) и 2) наиболее быстрое возникновение ВГ следует ожидать в результате сдвига рамки считывания (по причине инсерции или делеции) или возникновения стоп-кодона в начале гена. Быстрой эволюции лишних генов помимо обычных мутаций способствует внедрение в них ДНК профагов, рекомбинация, вставки транспозонов и прочие факторы.

Далеко не все открытые рамки считывания (ORF) кодируют белки. Поскольку при аннотировании генома часто за ген выдают непроверенную ORF, база данных содержит множество ложных генов, предполагаемый белковый продукт которых никогда не образуется. Иногда изучение последовательностей РНК, синтезирумых в клетках, позволяет убрать некоторые такие гены. Например, в статье [1] авторы пишут, что для 25 проверенных предполагаемых ВГ, 6 (24%) не имели соответствующего рнк-транскрипта, а следовательно, соответствующий им белок не синтезировался. Однако для полной уверенности, что ORF кодирует белок следует проверить с помощью антител наличие самого белка, что является дорогой и трудоемкой процедурой. Следует также отметить, что многие белки экспрессируются лишь в определенных условиях, поэтому авторы вполне могли получить неверные результаты. Для генов, не являющихся видоспецифичными, существует метод подтверждения наличия белкового продукта путем нахождения похожих генов в других организмах. Для ВГ проверка оказывается значительно сложнее.

Еще одной причиной возникновения большого количества ВГ является то, что база данных просто не содержит всех существующих генов. Постоянное обновление базы данных приводит к тому, что почти любые результаты подсчета числа ВГ в организме со временем устаревают и оказываются завышенными.

Процент, который составляют ВГ от всех генов в организме, очень сильно варьирует. В статье [2], авторы оценили процент одиночных ORF для 20 прокариот. Самый большой процент таких ORF был у Aeropyrum pernix (53.2%), самый малый - у Rickettsia conorii (1.26%). В среднем процент одиночных ORF для всех 20 прокариот составляет 25.4%. Авторы пошли дальше и отобрали из всех ORF только те, которые имели сходства с генами организма того же вида, но другого штамма. При этом средний процент одиночных ORF упал примерно в два раза и составил 12.7%. Заметим, что в статьях про сиквенирование полных геномов Xylella fastidiosa [3] и Vibrio cholerae [4] указываются цифры ВГ 38.9 и 53.5, которые значительно больше цифр, опубликованных в статье [2] (которая вышла на несколько лет позже), на 7.3 и 38.4 процента соответственно. Это доказывает значительное влияние на результаты поиска ВГ числа аннотированных генов в базе данных и частичного отсева ложно-предсказанных генов.

В то же время для эукариот картина другая: в статье [5] про сиквенирование Arabidopsis thaliana дается величина в 30% уникальных белков (что довольно много, если не учитывать даты публикации, а именно, 14.12.2000, ведь Arabidopsis был первым просиквенированным растением), а вот в статье [6] про геном Mus musculus получется, что белков уникальных для мыши менее 1% от общего числа белков, та же картина и для человека (белковый состав протеома которого почти ничем не отличается от белкового состава протеома мыши). В той же статье [6] говорится, что процент генов мыши специфичных для млекопитающих составляет менее 15%, для хордовых менее 21%, для метазой менее 48%. В статье [7] авторы говорят, что примерно 27% белков организмов Drosophila yakuba, Drosophila melanagaster и Anopheles gambiae не похожи на белки других просиквенированных организмов, что позволяет предположить, что эти белки являются специфичными для отряда двукрылых.

Подводя итог, можно сделать следующие выводы: существует группа видоспецифичных ORF, часть которых возможно являются некодирующими ORF. Процент одиночных ORF прокариотических видов в среднем выше, чем процент ORF специфичных для отдельных эукариотических видов. Это можно объяснить намного более быстрой эволюцией прокариот, связанной с их коротким жизненным циклом, и наличием у них особых механизмов для ускорения процесса изменения ДНК.

Недавно был предложен новый метод сравнения геномов посредством TOG-процедуры ([0] см. ниже). Этот метод может быть применен и для поиска ВГ. В представленной работе описывается результаты подсчета процента ВГ в геноме Bacillus subtilis с использованием двухэтапного метода, включающего TOG-процедуру. Полученные результаты сравнивались с данными в литературных источниках. Кроме того оценивалась эффективность самой TOG-процедуры

Белки, полученные в ходе TOG-процедуры сравнивались с другими белками из базы данных для того, чтобы выделить среди них ВГ. После этого изучались свойства полученных белков, такие как длинна, аминокислотный состав и наличие трансмембранных доменов. Эти свойства сравнивались со свойствами реальных белков (имеющих хорошее сходство с белками других организмов) и модельных белков у которых аминокислотный состав генерировался случайным образом.

Можно предположить, что, если среди группы видоспецифичных белков помимо настоящих белков имеется существенное количество артефактов, то их аминокислотный состав будет чем-то средним между аминокислотным составом не видоспецифичных белков и белков полученных путем трансляции генов “случайного” модельного генома. В данной работе модельный геном имеет нуклеотидный состав генома Bacillus subtilis, но случайные нуклеотидные последовательности.

Еще одно предположение, которое проверялось в данной работе заключалось в том, что видоспецифичные белки должны в среднем иметь меньше трансмембранных доменов на единицу длины. Это предположение основано на том, что вероятность случайного возникновения трансмембранного домена не велика, а следовательно ложные белки, которые могут быть в выборке видоспецифичных белков не должны иметь значительного числа трансмембранных доменов, что скажется на уменьшении количества последних в выборке.

На данный момент есть сведения по содержанию числа белков с трансмембранными доменами в различных организмах. В статье (9) авторы пишут, что среднее число белков с хотя бы одним предсказанным трансмембранным доменом составляет примерно от 17 до 40%. В частности, предсказано, что протеом Bacillus subtilis содержит около 24% белков, имеющих трансмембранные домены. Правда, использованная авторами программа TMHMM (которая использовалась и в данной работе) дает некоторое количество неправильных предсказаний, связанных с тем, что часто трансмембранные домены плохо отличимы от сигнальных пептидов (9, 10).

Таким образом, основной целью данной работы является поиск и изучение свойств белков, соответствующих ВГ, и их сравнение с другими белками, для того, чтобы оценить насколько много артефактных генов среди ВГ.

Методика

Для подсчета числа ВГ в геноме Bacillus subtilis изначально использовалась TOG-процедура [0]. TOG-процедура заключается в том, что для двух близких видов находят все такие гены, которые относительно друг друга имеют наибольшее сходство. Такую пару называют BBH (bilateral best hit). Эту пару, а также паралогов (паралогами называют такие гены одного организма, которые больше похожи друг на друга, чем один из них на свою пару по BBH, если таковая имеется) этих генов объединяют в ортологическую группу или TOG (Tree-based ortologous group, см. картинку ниже). Такую процедуру проводят с несколькими близкими видами. Те белки, которые не вошли ни в одну ортологическую группу, стали претендентами на звание видоспецифичных генов. Более точный подсчет числа ВГ шел с использованием программы Blastp (база данных NR, порог поиска е-04), однако в данной работе проверялась только случайно отобранная пятая часть претендентов (200 белков). Отдельное внимание уделялось тем аминокислотным последовательностям, которые из-за ошибок, допущенных в ходе TOG-процедуры, не попали в ортологические группы (хотя должны были попасть). На основе результатов проверки числа ВГ с помощью Blastp аппроксимировалось количество ВГ методом экстраполяции по длине. Этот метод заключается в том, что все белки претенденты разбиваются на 4 группы в зависимости от их длинны: <101, 101-200, 201-400, >400. Для проверенных двухсот белков рассчитывается процент ВГ в каждой группе, и этот результат умножается на суммарное число белков в данной группе среди всех претендентов. Сумма ВГ по всем группам дает суммарное количество ВГ в геноме Bacillus subtilis. Следует отметить, что в ходе TOG-процедуры не один ВГ не должен был попасть в ортологическую группу и, следовательно, не должен был отсеяться.

В ходе работы сравнивался средний аминокислотный состав белков ВГ и белков Bacillus subtilis, которые имеют ортологов у других видов. Средний аминокислотный состав белков ВГ также сравнивался со средним аминокислотным составом белков, полученных из случайного генома, имеющего нуклеотидный состав такой же, как и у Bacillus subtilis.

С помощью программы TMHMM (9) пакета Expasy Tools были получены данные по наличию трансмембранных доменов у пяти групп белков: соответствующих реальным ВГ, соответствующих реальным не видоспецифичным генам, случайные белки (полученные программой RandSeq пакета Expasy tools), имеющий тот же аминокислотный состав, что и 2 предыдущие группы, а также белки, амнокислотный состав которых такой же как у белка, ген которого был создан случайным образом на основе нуклеотидного состава генома Bacillus subtilis.

Ниже приведена картинка с изображением дерева дупликации гена, создающееся для TOG-процедуры. N1, N2, N3 - узлы, в которых произошла дупликацмя гена. Гены A3 и A5 являютя ортологами относительно узла ветвления N3, но паралогами относительно узла N2. В ходе TOG процедуры, начиная с листьев дерева, гены объединяются в ортологические группы относительно данного узла дерева. На каждом узле ортологическая группа представлена консенсусной последовательностью, полученнной в ходе множественного выравнивания генов этой группы. Таким образом, в каждом узле дерева образуется “супергеном”. Те гены, которые на самом верхнем узле дерева (в примере это узел N1) не нашли себе пары, считались притендентами на видоспецифичные гены. Глядя на дерево можно заметить, что эволюционное расстояние между паралогами меньше эволюционного расстояния между ортологами.

Результаты

В результате TOG-процедуры 1010 белков (примерно 25% от общего числа белков Bacillus subtilis) не попали ни в одну ортологическую группу и стали претендентами на звание видоспецифичных белков. 200 из полученных претендентов были сравнены с последовательностями из базы данных NR в NCBI через программу Blastp (порог поиска е-04).

Результаты проверки 200 белков представлены в таблице 1.

В колонке "protein name" указаны названия белков.

В колонке "size (aminoacids)" указаны размеры данного белка (число аминокислот).

В колонке "search results" указаны результаты поис ка. (“Orphan” означает, что данный белок кодируется ВГ. "No significent similarity found" означает, что в базе данных нет ничего похожего на данный белок. В остальных случаях в этой колонке указывается название одного из организмов, у которого был найден похожий белок.)

B колонке “e-value” приведены e-value, с которым у соответствующего организма из предыдущей колонки был найден похожий белок.

В ходе анализа результатов были установлено следующее:

1.) Для 63 белков (31.5% из изучаемых) были найдены похожие белки среди организмов, относящихся к исходной выборке. Это и есть результаты ошибок в ходе TOG-процедуры. В таблице эти случаи отмечены *.

На данный момент 75 (37.5%) среди двухсот изученных белков можно считать видоспецифичными.

5 белков оказались не похожими ни на что в базе данных, включая белки Bacillus subtilis.

По результатам анализа в геноме Bacillus subtilis 10.9% ВГ.

Таблица 1.

Результаты поиска похожих белков.

Protein name:

Size (aminoacids):

Search results:

e-value:

TetL

20

No significant similarity found.

YveF

30

Orphan

Usd

36

Orphan

PhrG

38

No significant similarity found.

PhrF

39

No significant similarity found.

Sbo

43

Orphan

YwzA

49

Orphan

YwhR

50

Orphan

YxzF

52

Orphan

YwmE

53

Orphan

YwtC

55

Orphan

YwbE

65

Bacillus cereus *

6.00E-15

RpmE

66

Bacillus cereus *

2.00E-14

YxiL

66

Orphan

Yxze

66

No significant similarity found.

YycD

66

Oceanobacillus iheyensis

5.00E-12

YyzB

67

No significant similarity found.

YxlD

68

Orphan

YvfG

72

Orphan

YwqO

73

Orphan

YxeJ

75

Orphan

YvkN

76

Orphan

YyzE

76

Bacillus cereus *

4.00E-10

YvzC

77

Orphan

YyaO

78

Methanosarcina mazei

7.00E-28

YxiT

81

Orphan

YwdA

82

Orphan

YycQ

82

Orphan

YxcA

83

Orphan

YwqI

86

Orphan

YxiJ

87

Orphan

YxbA

89

Orphan

YxiC

89

Orphan

YwjC

90

Orphan

YveG

95

Clostridium acetobutylicum

5.00E-19

YwkF

95

Orphan

ComfB

98

Bacillus licheniformis

1.00E-19

YwsA

98

Bacillus cereus *

2.00E-24

YxiS

98

Oceanobacillus iheyensis

2.00E-12

YwcI

100

Orphan

YxiJ

100

Orphan

LytA

102

Orphan

YwcB

102

Bacillus cereus *

2.00E-15

YxcD

103

Bacillus cereus *

4.00E-06

YwdI

105

Orphan

YxlC

106

Orphan

YxxE

106

Orphan

YvfA

109

Orphan

YvdS

111

Bacillus cereus *

2.00E-06

YwrE

111

Orphan

YwzD

112

Orphan

FliT

113

Orphan

YwpH

113

Bacillus cereus *

7.00E-35

YxiH

113

Orphan

YxeD

117

Orphan

YvzA

119

Orphan

YwlA

120

Orphan

YxeE

121

Orphan

YxiB

121

Oceanobacillus iheyensis

2.00E-06

YxzC

122

Orphan

YwbC

126

Streptococcus agalactiae *

2.00E-09

YwpG

127

Orphan

YybH

129

Lactococcus lactis *

1.00E-36

YxeC

132

Orphan

YydC

132

Orphan

YvaD

133

Bacillus anthracis *

1.00E-25

YwoH

137

Bacillus cereus *

2.00E-19

YycS

137

Bacillus anthracis *

1.00E-05

YxiG

138

Orphan

YwnJ

140

Orphan

YwqH

140

Orphan

YwdC

142

Orphan

YxaJ

142

Orphan

YxxQ

142

Orphan

YxaD

143

Corynebacterium glutamicum

3.00E-16

YxeF

143

Orphan

YyaB

145

Orphan

YybN

145

Orphan

YybP

148

Bacillus cereus *

1.00E-21

YwlE

150

Staphylococcus aureus *

8.00E-21

YxzG

150

Orphan

YvrN

151

Streptococcus pyogenes

1.00E-07

YxaI

151

Bacillus halodurans *

2.00E-07

YxiK

152

Orphan

YweA

154

Orphan

YwoB

154

Cytophaga hutchinsonii

1.00E-08

YxiF

156

Orphan

YwhH

157

Enterococcus faecalis *

1.00E-05

YwmA

157

Orphan

YxjN

157

Orphan

YvaW

158

Orphan

YwmF

159

Bacillus megaterium

2.00E-44

YxnB

160

Orphan

YvgO

161

Bacillus amyloliquefaciens

3.00E-51

YwdD

163

Orphan

YxeL

165

Staphylococcus aureus *

9.00E-34

YxiP

170

Bacillus cereus *

1.00E-10

YwdE

177

Orphan

YwsB

178

Bacillus amyloliquefaciens

3.00E-11

YvaV

180

Staphylococcus epidermidis *

3.00E-10

YvbF

185

Staphylococcus epidermidis *

2.00E-12

YxaK

185

Methanosarcina barkeri

1.00E-09

YxeG

185

Orphan

YvrI

191

Oceanobacillus iheyensis

5.00E-16

CotG

195

Orphan

YwrB

197

Oceanobacillus iheyensis

5.00E-34

YvaY

203

Orphan

YwfB

204

Bacillus amyloliquefaciens

1.00E-100

YxcE

216

Orphan

YvpA

221

Microbulbifer degradans

9.00E-39

YxjL

221

Bifidobacterium longum

3.00E-44

YwhM

224

Orphan

YwmD

224

Fusobacterium nucleatum

3.00E-31

YwbB

225

Bacillus cereus *

2.00E-58

YwcC

225

Burkholderia fungorum

4.00E-05

TuaF

226

Orphan

YwmC

227

Fusobacterium nucleatum

2.00E-24

YvbI

232

Orphan

YveK

234

Enterococcus faecium *

3.00E-18

YwfC

235

Bacillus amyloliquefaciens

1.00E-126

YwqL

238

Arabidopsis thaliana

4.00E-21

YwhQ

240

Bacillus cereus *

7.00E-27

YvcA

241

Oceanobacillus iheyensis

9.00E-11

YxbB

244

Streptococcus pneumoniae *

6.00E-08

YycO

245

Clostridium acetobutylicum

9.00E-06

YvmC

248

Photorhabdus luminescens

1.00E-38

YxeO

249

Listeria innocua *

2.00E-72

YybK

251

Orphan

YybM

252

Orphan

DltE

257

Lactococcus lactis *

3.00E-22

YwfH

259

Oceanobacillus iheyensis

2.00E-25

YybI

262

Clostridium tetani

2.00E-89

YvrD

263

Bacillus cereus *

1.00E-49

YvfQ

269

Streptomyces avermitilis

6.00E-71

YycI

280

Bacillus cereus *

1.00E-22

SpsD

289

Cytophaga hutchinsonii

3.00E-09

YxxB

293

Sinorhizobium meliloti

7.00E-21

YyaK

299

Nostoc sp.

6.00E-18

YxnA

307

Bacillus cereus *

2.00E-27

YxaB

317

Lactobacillus delbrueckii *

2.00E-07

YydG

319

Pyrobaculum aerophilum

2.00E-16

YvdO

320

Bacillus megaterium

1.00E-146

YvfF

322

Streptococcus thermophilus

2.00E-10

YvaX

323

Orphan

YxbC

330

Trichodesmium erythraeum

2.00E-13

YxaG

337

Corynebacterium glutamicum

3.00E-33

SpsG

339

Methanococcus jannaschii

2.00E-30

YvbX

344

Bacillus cereus *

1.00E-24

YvfB

345

Methanosarcina barkeri

5.00E-37

YxaL

350

Methanosarcina barkeri

4.00E-45

YveS

358

Streptococcus thermophilus

1.00E-33

YveQ

367

Lactobacillus delbrueckii *

2.00E-13

YycR

372

Bacillus cereus *

1.00E-39

CotB

380

Bacillus cereus *

5.00E-17

YveN

381

Bacillus cereus *

2.00E-17

YxaM

381

Thermoanaerobacter tengcongensis

6.00E-14

YxiM

382

Enterococcus faecium *

3.00E-09

YveP

384

Streptococcus pneumoniae *

1.00E-37

YwhO

386

Bacillus cereus *

3.00E-13

YycP

387

Bacillus halodurans *

2.00E-14

TuaC

389

Bacillus halodurans *

8.00E-13

YwfF

394

Bacillus cereus *

3.00E-09

TuaH

397

Clostridium acetobutylicum

4.00E-17

CypX

405

Photorhabdus luminescens

3.00E-95

YwfA

412

Staphylococcus aureus *

6.00E-16

YwtD

413

Enterococcus faecalis *

2.00E-19

YwhN

426

Streptococcus agalactiae *

4.00E-17

MurZ

429

Listeria monocytogenes

1.00E-155

YwhP

437

Orphan

YxeK

441

Listeria innocua *

1.00E-111

YvkA

444

Bacillus cereus *

8.00E-27

AldX

445

Bacillus cereus

2.00E-80

YxeQ

445

Agrobacterium tumefaciens

8.00E-59

YyaJ

446

Leuconostoc mesenteroides

2.00E-28

YxkJ

450

Bacillus cereus *

7.00E-87

YwhK

451

Methanosarcina acetivorans

2.00E-08

YwoD

452

Enterococcus faecalis *

3.00E-21

YxlA

457

Enterococcus faecalis *

7.00E-06

YwhL

458

Methanosarcina acetivorans

4.00E-17

AraE

464

Bacillus cereus *

1.00E-58

Mmr

466

Enterococcus faecalis *

2.00E-26

YwoF

468

Bacillus megaterium

8.00E-46

SpsB

472

Orphan

YydB

481

Nostoc punctiforme

2.00E-07

AldY

485

Bacillus cereus *

3.00E-63

TuaE

488

Bacillus cereus *

3.00E-04

YveA

520

Staphylococcus epidermidis *

4.00E-56

RocB

556

Bacillus cereus *

2.00E-70

YxkI

562

Bacillus halodurans *

8.00E-07

YvaQ

566

Bacillus cereus *

1.00E-39

YwqJ

602

Bacillus anthracis *

4.00E-07

YvgJ

617

Bacillus cereus *

1.00E-166

YvcB

636

Oceanobacillus iheyensis

7.00E-60

YydD

647

Thermobifida fusca

5.00E-15

YyaE

667

Bacillus halodurans *

3.00E-63

YycA

685

Oceanobacillus iheyensis

9.00E-11

YyaL

688

Oceanobacillus iheyensis

0

AsnH

747

Bacillus cereus *

8.00E-51

YvkC

831

Desulfitobacterium hafniense

2.00E-82

YvnB

1289

Corynebacterium glutamicum

1.00E-165

Изученные белки были рассортированы по размеру, и был рассчитан процент белков, кодирумых ВГ среди первых 78 белков (число аминокислот от 20 до 145) и последующих 122 (число аминокислот от 148 до 1289). Среди коротких белков таких получилось примерно 68% , а среди более длинных около 18%. В выборке по этому принципу результаты отличаются почти в 4 раза. Можно предположить, что среди более мелких белков больше артефактов (соответствующие ORF не кодируют белкового продукта или РНК). Также примерно 17% из первых 78 белков и 41% из остальных более крупных белков имеют сходство с белками организмов, геномы которых использовались в TOG-процедуре. Выборки по данному признаку отличаются примерно в 2.5 раза. Это означает, что TOG-процедура чаще ошибается при работе с крупными белками.

В ходе исследований находились белки не похожие ни на один белок в базе данных, включая белки из генома Bacillus subtilis. Можно предположить, что это белки, которые были удалены из базы данных по причине их неправильной аннотации. Такие белки обладают небольшими размерами (до 67 аминокислот). Были подсчитаны аминокислотные составы четырех групп белков (результаты представлены в таблице 2). Первая группа - не видоспецифичные белки. Это белки, имеющие хорошее сходство с белками из организмов отличных от Bacillus subtilis. Вторая группа белков - видоспецифичные. Это белки, не имеющие сходства с белками из организмов отличных от Bacillus subtilis. Третья группа - белки смоделированного генома, имеющего нуклеотидный состав генома Bacillus subtils, но случайно-сгенерированные последовательности. Последняя группа - протеом Bacillus subtilis.

видоспецифичный геном белок аминокислота

Таблица 2.

Аминокислотный состав различных групп белков.

Аминокислота

Не видоспецифичные белки

Видоспецифичные белки

Случайные белки

Все белки протеома

A

8,14

6,53

4,95

7,36

C

0,72

1,31

3,19

0,75

D

4,74

3,91

3,45

5,10

E

6,40

5,74

4,10

7,47

F

5,43

6,09

3,25

4,07

G

6,65

4,70

5,86

7,08

H

2,26

2,21

2,96

2,17

I

7,66

8,29

6,23

7,43

K

6,82

7,56

5,52

7,23

L

9,46

11,13

9,38

9,51

M

2,86

3,09

2,00

2,79

N

4,13

3,85

4,60

3,87

P

2,97

3,12

4,10

3,63

Q

3,88

4,25

3,65

3,84

R

3,47

3,88

9,08

4,80

S

7,15

7,70

8,88

6,01

T

5,66

4,51

6,64

5,50

V

6,99

6,26

6,75

7,34

W

0,98

1,31

1,52

0,89

Y

3,63

4,52

3,87

3,16

Сравнивая эти аминокислотные составы, можно сделать следующие наблюдения:

1.) По содержанию большинства аминокислот видоспецифичные белки не занимают промежуточного положения между группой не видоспецифичных белков и белков соответсвующих генам смоделированного генома.

2.) Аминокислотный состав видоспецифичных белков меньше похож на суммарный состав протеома, чем состав не видоспецифичных белков.

3.) Можно заметить, что группа видоспецифичных белков содержит больший процент гидрофобных аминокислот. Видоспецифичные белки в среднем сильно гидрофобнее других групп белков, что видно из таблицы 3. В колонке “Показатель гидрофобности” эти значения были подсчитаны , как равные сумме по всем аминокислотам произведения процента содержания данной аминокислоты в выборке на ее показатель гидрофобности.

С помощью программы TMHMM пакета Expasy Tools было подсчитано число трансмембранных доменов в каждой из пяти групп белков, представленных в таблице 3.

Таблица 3.

Результаты анализа пяти групп белков.

Группа белков

Предсказанных

трансмембранных доменов

Показатель

гидрофобности

Реальные видоспецифичные белки

3.27

11.82232893

С аминокислотным составом видоспецифичных белков*

0.45

11.82232893

Реальные невидоспецифичные белки

2,22

3.396249645

С аминокислотным составом невидоспецифичных белков*

0,15

3.396249645

Белки из смоделированного генома**

0,03

-1.235296667

* Белки, полученные с помощью программы RandSeq пакета Expasy Tools, имеющие аминокислотный состав такой же, как в одной из соответствующих групп, но со случайной последовательностью.

** Белки, полученные за счет применения программы RandSeq к аминокислотному составу белков, смоделированного генома (имеющего нуклеотидный состав такой же, как и геном Bacillus subtilis).

Количество предсказанных трансмембранных доменов нормировано на суммарную длинну белков в 300 аминокислот. Показатель гидрофобности подсчитывался, как сумма произведений процента каждой аминокислоты на значение ее гидрофобности. Чем выше этот показатель, тем белок гидрофобней.

Реальные видоспецифичные белки - белки с пометкой orphan, взятые из таблицы 1. Это аннотированные белки Bacillus subtilis, не похожие на белки других организмов.

Реальные невидоспецифичные белки - белки взятые из таблицы 1, имеющие хорошее сходство с белками других организмов.

Исходя из результатов взятых из таблице 3, можно сделать следующие выводы:

1.) Вероятность случайного возникновения трансмембранного домена очень мала.

2.) Среди реальных видоспецифичных и не видоспецифичных белков транмембранных доменов встречается намного больше, чем среди случайно-сгенерированных.

3.) Трансмембранных доменов в видоспецифичных белках больше, чем в не видоспецифичных.

Отдельно можно отметить, что процент трансмембранных белков среди видоспецифичных белков очень высок : 45% имеют один и более трансмембранных доменов, тогда как для всего протеома эта цифра близка к 24% (9).

Обсуждение результатов

Результаты, полученные в данной работе свидетельствуют о том, что TOG-процедура может успешно применяться для поиска ВГ.

Результаты аппроксимации процента ВГ в Bacillus subtilis, составлющие 10.9%, довольно близки к 12.7% - средним для прокариот по исправленным результам из статьи [2], что представляется вполне логичным. Можно заметить, что процент ВГ наибольший среди коротких фрагментов. Это можно объяснить тем, что короткие открытые рамки считывания часто возникают случайно и нередко представляют из себя некодирующую часть ДНК. Такие рамки считывания могут являться артефактами, возникшими из-за неправильной аннотации генов. Действительно, 5 коротких аминокислотных последовательностей из проверенных были удалены из базы данных, что подтверждает сказанное выше.

Исходя из предположения, что среди ВГ большой процент артефактных генов, мы предложили гипотезу, что аминокислотный состав видоспецифичных белков будет чем-то средним между аминокислотным составом смоделированного генома и аминокислотным составом невидоспецифичных белков (которые вероятнее всего действительно синтезируются в организме и участвуют в метаболизме). Однако, судя по результатам сравнения аминокислотых составов, приведенных в таблице 2, это предположение было ошибочным. В действительности процент содержания лишь 8ми аминокилот в видоспецифичных белках занимает промежуточное значение между процентом ее содержания в двух других групп. Более того, судя по результатам подсчета числа трансмембранных доменов, приведенных в таблице 3, можно сказать, что в целом видоспецефичные белки менее “случайны”, чем невидоспецифичные. Принимая во внимание то, что вероятность случайного возникновения трансмембранного домена в результате серии мутаций очень низка (не более 15 доменов на 10000 аминокислотных остатков), тот факт, что среди видоспецифичных генов их больше всего свидетельствует против гипотезы их случайного возникновения.

Высокая гидрофобность группы видоспецифичных белков объясняется наличием у них большого числа трансмембранных доменов, скорее, чем наоборот.

Еще одно объяснение большого числа трансмембранных доменов у видоспецифичных белков состоит в том, что использованная нами программа по поиску гомологичных белков (BLASTP) не достаточно хорошо приспособлена для поиска сходства белков с трансмембранными доменами. Возможно многие из “видоспецифичных белков” на самом деле таковыми не являются, а просто их сходство с другими белками плохо узнается поисковой программой.

Ранее было сказано, что существенную погрешность в точность подсчета ВГ в геноме вносят неполнота базы данных и наличие в ней неправильных аннотаций. В связи с тем, что недавно был опубликован проект массового сиквенирования ДНК микроорганизмов из саргасового моря [8], вследствии чего с момента проведенной проверки белков на видоспецифичность число последовательностей в базе данных NCBI возросло почти в два раза, имеет смысл сравнить последовательности ВГ с последовательностями из некультивированных организмов из природных источников (Environmental Samples).

Это может привести к отсеву некоторых ВГ, а также может подтвердить правильность аннотации некоторых ВГ, которые найдут очень близких гомологов, возможно из других штаммов Bacillus subtilis. Предварительная проверка уже была проведена и по ее результатам, действительно, для некоторых ВГ были найдены похожие последовательности, однако эта задача не являлась существенной и не была выполнена до концa.

На основе проведенной работы можно сделать следубщие выводы: число ВГ в геномaх различных организмов довольно существенно. Характерными свойсвами кодируемых ими белков являются их довольно короткая длина, относительно высокая гидрофобность и завышенные показатели по числу содержащихся в них трансмембранных доменов.

В среднем эта группа белков довольно сильно отличается от группы не видоспецифичных белков, однако нет веских аргументов в пользу того, что эти различия связаны с наличием среди первых существенного числа ложных белков. Видоспецичные белки представляют из себя интересную группу белков, заслуживающую более тщательного и глубокого изучения.

Список использованной литературы

I. V. Merkeev, P. S. Novichkov, A. A. Mironov. TOGs vs COGs: a Database of Supergenomes Built from Proteome Complements. (unpublished).

J. Alimi, O. Poirot, F. Lopez, J. Claverie. Reverse Transcriptase-Polymerase Chain Reaction Validation of 25 "Orphan" Genes from Escherichia coli K-12 MG1655. Genome Research,Vol.10, 959-966, 2000.

S. Fukuchi, K. Nishikawa. Estimation of the number of Orphan Genes in the Genome Sequences. Genome informatics 14:468-469, 2003.

A. J. Simpson et all. The genome sequence of the plant pathogen Xylella fastidiosa. Nature, 151-157, 2000.

J. F. Heidelberg, J. A. Eisen, W. C. Nelson. DNA sequence of both chromosomes of the cholera pathoge Vibrio Cholerae. Nature, 477-485, 2000.

The Arabidopsis Genome Initiative. Analysis of the genome sequence of the flowering plant Arabidopsis thaliana. Nature, 791-826, 2000.

R. H. Waterston et all. Initial sequencing and comparative analysis of the mouse genome. Nature, 509-573, 2002.

...

Подобные документы

  • It was proposed to use the 2H-labeled hydrolysate of RuMP facultative methylotroph Brevibacterium methylicum, obtained from deuterated salt medium dM9 as a substrate for the growth of inosine producing bacterium Bacillus subtilis.

    статья [550,4 K], добавлен 23.10.2006

  • Бактериальные штаммы. Культивирование B. subtilis. Выделение инозина. Получение дейтерий-меченного инозина. Изучение ростовых и биосинтетических характеристик B. subtilis. Исследование степени дейтерированности инозина.

    статья [798,8 K], добавлен 23.10.2006

  • Краткая биографическая справка из жизни Гюнтера Блобеля. Первая версия сигнальной гипотезы. Воспроизведение процесса контрасляционной транслокации. Интеграция сигнальных белков. SRP-рецептор, электрофизиологическое обнаружение каналов транспорта белков.

    курсовая работа [1,3 M], добавлен 06.05.2014

  • Осуществлен биосинтез 2Н-меченого пуринового рибонуклеозида инозина с использованием адаптированного к дейтерию штамма Bacillus subtilis в тяжеловодородной среде высокого уровня дейтерированности с гидролизатом биомассы метилотрофной бактерии.

    статья [2,5 M], добавлен 23.10.2006

  • Мембранные белки как амфифильные соединения, принципы их структурной организации и способы ее предсказания для трансмембранных белков. Ионизируемые аминокислотные остатки в трансмембранных сегментах. Способы идентификации вторичных амфифильных структур.

    реферат [690,9 K], добавлен 30.07.2009

  • Физические, биологические и химические свойства белков. Синтез и анализ белков. Определение первичной, вторичной, третичной и четвертичной структуры белков. Денатурация, выделение и очистка белков. Использование белков в промышленности и медицине.

    реферат [296,5 K], добавлен 10.06.2015

  • История и классификация антибиотиков. Их влияние на бактерии рода Bacillus. Интенсивность роста колоний данного микроорганизма при различных концентрациях антибиотика, растворённого в питательной среде. Метод диффузии в агар с использованием желобка.

    курсовая работа [1,8 M], добавлен 09.09.2009

  • Использование трансгенных организмов: изучение роли определенных генов и белков; получение новых сортов растений и пород животных; в биотехнологическом производстве плазмид и белков. Выведение флуоресцентных свиней и генетический модифицированных кошек.

    презентация [676,7 K], добавлен 25.12.2012

  • Определение нуклеотидной последовательности генома человека. Идентификация генов на основе физического, хромосомного и функционалного картирования, клонирования и секвенирования. Новая отрасль биологии - протеомика. Изучение структуры и функции белков.

    лекция [39,8 K], добавлен 21.07.2009

  • Использование незаменимых аминокислот, зависимость биологического и химического состава белков от их аминокислотного состава. Суточная норма потребления белка. Роль магния и калия для сердца. Собственное, симбионтное и аутолитическое типы пищеварения.

    контрольная работа [153,1 K], добавлен 29.12.2009

  • Проблемы сборки мембранных белков, методы исследования и условия переноса белков через мембраны. Сигнальная и мембранная (триггерная) гипотеза встраивания белков в мембрану. Процесс сборки мультисубъединичных комплексов и обновление мембранных белков.

    курсовая работа [289,5 K], добавлен 13.04.2009

  • Общие закономерности постсинтетической модификации белков. Процессы ковалентной модификации на уровне аминокислотных радикалов. Процессы, не включающие образование дериватов аминокислот. Посттрансляционное карбоксилирование остатков глутаминовой кислоты.

    реферат [242,9 K], добавлен 10.12.2011

  • Белки (протеины) – высоко молекулярные, азотосодержащие природные органические вещества, молекулы которых построены из аминокислот. Строение белков. Классификация белков. Физико-химические свойства белков. Биологические функции белков. Фермент.

    реферат [4,0 M], добавлен 15.05.2007

  • Роль белков в сигнальных системах клеток, при иммунном ответе и в клеточном цикле. Виды белков в живых клетках: ферменты, транспортные, пищевые, запасные, сократительные, двигательные, структурные, защитные и регуляторные. Доменная структура белков.

    презентация [578,7 K], добавлен 18.10.2014

  • Белки как класс биологических полимеров, присутствующих в каждом живом организме, оценка их роли и значения в процессе жизнедеятельности. Строение и основные элементы белков, их разновидности и функциональные особенности. Нарушение белкового обмена.

    презентация [980,5 K], добавлен 11.03.2013

  • Механизм воздействия прокариотических микроорганизмов на спав и липазу. Щелочные протеиназы рода Bacillus. Методика выделения, изучение свойств концентрированного ферментного препарата и порядок его применения в процессе обезжиривания меховой овчины.

    дипломная работа [169,7 K], добавлен 27.11.2010

  • Понятие белков как высокомолекулярных природных соединений (биополимеров), состоящих из остатков аминокислот, которые соединены пептидной связью. Функции и значение белков в организме человека, их превращение и структура: первичная, вторичная, третичная.

    презентация [564,0 K], добавлен 07.04.2014

  • Белки - высокомолекулярные органические соединения, их аминокислотный состав. Определение свойств белков их составом и структурой белковой молекулы. Характеристика основных функций белков. Органоиды клетки и их функции. Клеточное дыхание и его строение.

    контрольная работа [22,5 K], добавлен 24.06.2012

  • Физические и химические свойства, цветные реакции белков. Состав и строение, функции белков в клетке. Уровни структуры белков. Гидролиз белков, их транспортная и защитная роль. Белок как строительный материал клетки, его энергетическая ценность.

    реферат [271,2 K], добавлен 18.06.2010

  • Геномика — раздел молекулярной генетики, посвящённый изучению генома и генов живых организмов. Протеомика, инвентаризация белков, реально работающих молекулярных машин в клетке. Метаболомика, изучение и моделирование процессов обмен веществ в клетке.

    презентация [500,7 K], добавлен 15.11.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.