Структурная биоинформатика. Биоинформатик Михаил Гельфанд: «Нобелевская премия по биологии сейчас не имеет никакого значения

Биоинформатика стала модным словом в современном мире науки. Примерно один или два десятилетия назад люди рассматривали биологию и информатику как две совершенно разные области. Одна изучала живых существ и функции их организма, тогда как другая занималась компьютерами и информационными системами. Однако в настоящее время существует, по-видимому, связь между этими двумя областями, и эта новая область, биоинформатика, появилась как комбинация Информатики и Биологии.

Что такое биоинформатика?

био + информатика = биоинформатика
Биоинформатика  - это междисциплинарная область, которая разрабатывает методы и программные средства для понимания биологических данных. В качестве междисциплинарной области науки биоинформатика сочетает компьютерную науку, статистику, математику и технику для анализа и интерпретации биологических данных.

Различные биологические анализы приводят к экспоненциальному росту количества биологических данных, и их очень сложно анализировать вручную. Именно здесь приходит на помощь компьютерная наука и информационные технологии. Различные вычислительные методы используются для более точного и эффективного анализа биологических данных и автоматизируют процесс их обработки. Следовательно, биоинформатика может рассматриваться как область науки о данных для решения проблем в области биологии и медицины.

Зачем изучать и применять биоинформатику?

Биоинформатика стала междисциплинарной наукой, и если вы являетесь биологом, то знания в области биоинформатики могут принести вам огромную пользу в работе с вашими экспериментами и исследованиями.

Международный рынок труда в настоящее время заполнен вакансиями для людей с навыками биоинформатики. Крупные фармацевтические, биотехнологические и софтверные компании стремятся нанять профессионалов, имеющих опыт в области биоинформатики, чтобы они работали с огромным количеством биологической и медицинской информации.

Основное применение биоинформатика находит в области прецизионной и профилактической медицины . Основу прецизионной медицины составляют медицинские методы, адаптированных для отдельных пациентов, включая методы лечения и диагностики. Вместо лечения болезней прецизионная медицина фокусируется на разработке мер по профилактике и предотвращении заболеваний. Она сосредотачивается на таких болезнях, как грипп , рак , сердечные заболевания и диабете .

Проводятся исследования по выявлению генетических изменений у пациентов, что позволяет ученым предлагать лучшие методы лечения и даже возможные меры профилактики. Определенные типы рака, вызванные такими генетическими изменениями, могут быть идентифицированы заранее и лечение может начаться до ухудшения состояния.

Как стать специалистом в биоинформатике?

Прежде чем углубиться в предмет, на начальном этапе вам нужно немного узнать о биологии , генетике и геномике . Это включает изучение генов, ДНК , РНК , белковых структур, различных процессов синтеза и т.п.

Затем вам нужно будет изучить биомолекулярные структуры (например, последовательности, обнаруженные в ДНК , РНК и белках) и методы для обнаружения и анализа различных моделей, а также информационных сайтов о них. Вы столкнетесь с различными алгоритмами, используемыми различными методами. Кроме того, вы получите возможность использовать различные методы машинного обучения и интеллектуального анализа данных, такие как скрытые марковские модели , нейронные сети и кластеризация .

Поскольку вы будете иметь дело с большими объемами данных, важно иметь хорошее понимание о статистике , как вы должны анализировать данные в соответствии с конкретными требованиями.

Конечно, вам понадобятся хорошие навыки программирования . Такие языки программирования, как R , Python и Bash являются наиболее часто используемыми языками в анализе биологических данных. Решить, с чего начать, зависит от ваших целей. Вы можете использовать и другие языки, такие как C / C++ и Java .

После базового понимания фундаментальных концепций вы можете исследовать другие области, такие как структурная биоинформатика , системная биология и биологические сети .

Человек - удивительное создание, а его геном еще более увлекателен. Весь геном человека, хранящийся в молекуле ДНК, это потрясающе! Можно кодировать огромные количества данных за одну минуту, и расшифровывать их чтобы понять, какие изменения в экспрессии генов могут привести к фатальным генетическим заболеваниям. Системы здравоохранения нуждаются в мерах по выявлению таких заболеваний, а также в лечебно-профилактических мерах, способствующих спасению человеческих жизней.

Биоинформатика доказала, что обладает большим потенциалом для выявления болезней на ранней стадии, определения методов их лечения и улучшения жизни людей. Воодушевленные знаниям в области компьютерных наук такие области, как генная техника, медицина и здравоохранение, могут развиваться - от лечения индивидуальных пациентов до исцеления всех групп населения.

Все знают, что биоинформатика - это как-то связано с компьютерами, ДНК и белками и что это передний край науки. Более подробными сведениями может похвастаться далеко не каждый даже среди биологов. О некоторых задачах, которые решает современная биоинформатика, рассказал «Химии и жизни» Михаил Сергеевич Гельфанд (интервью записала Елена Клещенко).

Информация в биологии

В последние десятилетия появилось много новых научных дисциплин с модными названиями: биоинформатика, геномика, протеомика, системная биология и другие. Но по сути, биоинформатика, также как и, скажем, протеомика, - не наука, а несколько удобных технологий и набор конкретных задач, которые решают с их помощью. Можно говорить, что каждый человек, который определяет концентрации белков методом масс-спектрометрии или изучает белок-белковые взаимодействия, работает в области протеомики. Но не исключено, что со временем это деление станет не таким важным: применяемая технология будет менее существенной, чем способ думать, ставить вопросы. И в этом смысле биоинформатика как самая древняя из этих наук - ей целых 25 лет - играет роль цементирующего начала, потому что независимо от того, каким способом получены данные, все равно они потом попадают в компьютер. Иначе быть не может: размер бактериального генома - миллионы нуклеотидов, высшего животного - сотни миллионов или миллиарды. Транскриптомика, изучающая активность генов, получает данные о концентрациях десятков тысяч матричных РНК, протеомика - о сотнях тысяч пептидов и белок-белковых взаимодействиях. С таким количеством информации нельзя работать вручную. Мы еще помним, как печатали на бумаге нуклеотидные последовательности, потом вырезали напечатанные строчки, подставляли друг под друга и таким кустарным способом делали выравнивание - искали сходные участки. Это было возможно, когда речь шла о десятках-сотнях нуклеотидов или аминокислот, но при современном объеме данных нужны специальные инструменты. Набор таких инструментов и предоставляет биоинформатика - в практическом плане это прикладная наука, обслуживающая интересы биологов.

Поскольку моя собственная работа связана в основном с анализом геномных данных, далее речь пойдет главным образом о геномике. Объемы данных еще до появления последнего поколения секвенаторов начали обгонять закон Мура: нуклеотидные последовательности геномов накапливались быстрее, чем росла мощность компьютеров. Не будет большим преувеличением сказать, что за последние годы биология начала превращаться в науку, «богатую данными». Условно говоря, в «классической» молекулярной биологии в одном эксперименте устанавливался один биологический факт: аминокислотная последовательность белка, его функция, то, как регулируется соответствующий ген. А теперь такого рода факты получаются индустриально. Молекулярная биология движется по пути, по которому уже прошли астрофизика и физика высоких энергий. Когда имеется постоянно работающий радиотелескоп или ускоритель, проблема добычи данных решена, и на первый план выступают проблемы их хранения и обработки.

С биологией происходит то же самое, причем очень быстро, и не всегда бывает легко перестроиться. Однако те, кому это удается, оказываются в выигрыше. На нашем семинаре один биолог рассказывал, как они с коллегами изучали некий белок традиционными методами экспериментальной биологии. Это сложная задача: зная, что в клетке выполняется определенная функция, найти белок, который за нее отвечает. Они нашли этот белок, занялись его изучением и убедились, что должен существовать другой белок с подобными свойствами, поскольку наличие первого объясняет не все наблюдаемые факты. Искать второй белок на фоне первого было еще более сложно, но они справились и с этим. А затем был опубликован геном человека - и, получив доступ к его последовательности, они нашли еще дюжину таких белков...

Из этого примера вовсе не следует, что практическая молекулярная биология себя исчерпала. Скорее она научилась пользоваться новыми инструментами: интерпретировать не только полоски в геле после электрофореза, концентрации мРНК и белков или, скажем, скорость роста бактерий, но и колоссальные массивы данных, хранящиеся в компьютере. Заметим, что элемент интерпретации неизбежно присутствует и в классической биологии. Когда исследователь утверждает, что белок А запускает транскрипцию гена В, он не наблюдает напрямую, как белок взаимодействует с регуляторной областью гена, а делает такой вывод из расположения полосок на геле и других экспериментальных данных. В биоинформатике, по сути, та же ситуация, только возведенная в абсолют: готовые данные лежат в компьютере, и среди них нужно отыскать пазлы, из которых получится собрать картинку.

К области технической биоинформатики относится первичная обработка данных. Секвенатор не сам «читает» молекулы ДНК, а дает на выходе кривые флуоресценции, пики на которых еще нужно превратить в нуклеотидную последовательность. Эта задача решается каждый раз по-новому для нового устройства секвенирования, и решает ее биоинформатика. Кроме того, как уже говорилось, полученные данные надо где-то хранить, обеспечивать к ним удобный доступ и т. д. Все это чисто технические проблемы, но они очень важны.

Более сложное и интересное занятие биоинформатиков - получать на основе данных о геноме конкретные утверждения: белок А обладает такой-то функцией, ген В включается в таких-то условиях, гены С, D и Е экспрессируются в одно и то же время, а продукты их образуют комплекс. Именно этим занимаемся мы, и в этом состоит практическое применение нашей науки. Для нас пользователи - другие биологи, которым мы сообщаем интересные для них факты.

Расположение и регуляция

Как можно из последовательности нуклеотидов делать выводы о функции белков и генов? Первое соображение кажется банальным: если белок похож на какой-нибудь другой, уже изученный, то с большой вероятностью он делает примерно то же самое. На самом деле оно не так уж банально: первым серьезным успехом в этом направлении биоинформатики было утверждение, что вирусные онкогены - это «испорченные» гены самого организма.

Выполнить подобное сравнение сейчас уже несложно. Существуют банки данных по нуклеотидным и белковым последовательностям (подробнее о них рассказывалось в «Химии и жизни», 2001, №2). Общее представление о том, как это должно быть устроено, появилось в конце 80-х годов, и в этом смысле биоинформатика была готова к потоку геномных данных. Сегодня это стандартный интернет-сервис: вы загружаете свою последовательность в окошко, нажимаете кнопку, и через несколько секунд вам сообщают, на какие последовательности из этой базы она похожа.

Дальше начинаются более тонкие соображения. Известно, например, что у бактерий гены часто бывают организованы в опероны, то есть транскрибируются в виде одной матричной РНК. Есть разные эволюционные теории, которые объясняют, почему так получилось, что функционально связанные гены образуют оперон. Первая теория состоит в том, что это удобно и полезно, потому и поддерживается эволюцией. Если белки имеют общую функцию, например, отвечают за разные этапы переработки одного вещества, логично, чтобы они появлялись в клетке одновременно, по одному и тому же сигналу (естественно, что при общей мРНК и регуляция одна на всех) и в равном количестве. Второе утверждение менее тривиально и более красиво. Генам, продукты которых имеют связанные функции, выгодно находиться рядом из-за горизонтального переноса. Это очень существенный механизм эволюции бактерий: участки генома одной бактерии попадают в другую, которая благодаря этому может приобрести новые полезные признаки. Понятно, что, если в новый геном переместится лишь один ген метаболического пути, то соответствующий белок будет бесполезен: субстрата для катализируемой им реакции нет, а ее продукт, в свою очередь, некому перерабатывать. Дополнительным подтверждением этой теории служит то, что у бактерий бывают геномные локусы, в которых гены из одного метаболического пути лежат на разных цепях ДНК и потому транскрибируются в разных направлениях. Здесь точно играет главную роль повышенная вероятность совместного переноса.

Тот факт, что два гена находятся рядом в каком-то одном геноме, не очень много говорит про их функциональную связь, это может быть и случайность. Однако мы умеем отождествлять гены в разных организмах. Последовательности у них, конечно, не совпадают до нуклеотида, а могут различаться довольно значительно. Но есть некие правила, которые позволяют утверждать, что это один и тот же ген, скажем, у кишечной и у сенной палочки. Итак, если пара генов находится рядом не в одном геноме, а в пятидесяти, причем у представителей разных таксономических групп (то есть это расположение не просто унаследовано от общего предка), - это означает, что они действительно тяготеют друг к другу. Если бы эволюция не поддерживала их близкого расположения, оно не сохранилось бы. И значит, можно предположить, что они функционально связаны.

Второе соображение похоже на первое. Не все бактерии имеют одинаковый набор генов: к примеру, если ген кодирует фермент, нужный для переработки какого-то углевода, то его не будет у бактерии, которая этим углеводом не питается. Зато у бактерии, которая питается именно этим углеводом, будет весь необходимый набор: и ферменты, и белок-транспортер, переносящий углевод внутрь клетки. Функционально связанные гены присутствуют в геноме по принципу «все или ничего»: как уже говорилось, бессмысленно иметь лишь фрагмент метаболического пути, а бактерии - существа экономные, то, что не приносит пользы, из их генома быстро исчезает. Поэтому если сделать таблицу, где по строкам расположить различные гены, а по столбцам - разные геномы, и отметить плюсами и минусами гены, присутствующие или отсутствующие в данном геноме, мы увидим группы генов, обслуживающих одну и ту же функцию. И неизвестный ген с тем же набором плюсов и минусов, что у некой группы, скорее всего, можно приписать к ней же.

Третье соображение связано с регуляцией активности генов. Рядом с геном обычно присутствуют участки, с которыми взаимодействуют определенные белки - они могут запускать транскрипцию, блокировать ее, управлять ее интенсивностью, иначе говоря, от них зависит активность гена в каждый момент времени. Некоторые регуляторные участки очень хорошо опознаются по характерным последовательностям «букв», но это бывает редко. Например, участки связывания факторов транскрипции мы распознаем в геномах с невысокой точностью и вместе с правильными сайтами нагребаем кучу «мусора» - похожие коротенькие участки, которые на самом деле не имеют отношения к регуляции генов. Но поскольку совместно регулируются те гены, которые совместно работают, настоящие сайты связывания находятся перед одними и теми же генами в десятке геномов, а случайные - раскиданы там и сям, и никакой закономерности в их расположении не прослеживается. Получается мощный фильтр, позволяющий отсеять «мусор». И если перед геном с неизвестной функцией устойчиво обнаруживается знакомый сайт, будет ясно, что этот ген регулируется в составе функциональной подсистемы, которая регулируется тем же регулятором и обеспечивает ту же функцию.

Мне интереснее всего изучать эволюцию регуляторных систем, но побочным продуктом при этом бывает множество функциональных предсказаний. Исследование развивается как детектив: каждое соображение по отдельности очень мелкое, но если «улик» много и они все попадают в одну точку, то можно делать уверенные утверждения. Был случай, когда мы подробно описали регуляторную систему - фактор транскрипции, сайты его связывания, то, что это будет репрессор, а не активатор, то, что связывание будет требовать кооперативного взаимодействия двух димеров, - просто глядя на буковки генома. Впоследствии все это вплоть до деталей оказалось правильным.

Рибосома как депо цинка

В одной из таких работ центральную роль сыграла Екатерина Панина, на тот момент студентка мехмата МГУ (потом она поступила в аспирантуру Калифорнийского университета Лос-Анджелеса и стала настоящим биологом-экспериментатором). Она пришла к нам на третьем курсе и сказала, что хочет заниматься такой биологией. К окончанию мехмата у нее было опубликовано несколько статьей в серьезных журналах.

Бактериальной клетке нужны ионы цинка: они, например, входят в состав некоторых ферментов как кофакторы. Соответственно есть и молекулярная машинерия, которая обслуживает все процессы, связанные с цинком. Мы изучали цинковый репрессор (в больших количествах цинк ядовит для клетки, поэтому выключать его транспорт при достаточных концентрациях не менее важно, чем уметь добывать его из окружающей среды), используя идеологию, о которой рассказывалось в предыдущей главке. Если перед геном имеется потенциальный сайт цинкового репрессора, то этот ген, возможно, относится к метаболизму цинка. Именно таким образом мы в свое время «вычислили» цинковый транспортер - трансмембранный белок, который обеспечивает проникновение цинка внутрь клетки.

Так вот, в 2002 году Катя обратила внимание, что потенциальные сайты цинкового репрессора почему-то часто попадаются перед генами рибосомных белков. Она поделилась этим наблюдением с научным руководителем, и я сказал, что, поскольку в геноме больше сотни генов рибосомных белков, а сайты встречались перед разными генами, это случайность. Но Катя в случайность не поверила и нашла статью Евгения Кунина (о его модели происхождения клетки см. в статье М. А. Шкроб в августовском номере), которая была опубликована незадолго до этого. Там было показано, что некоторые рибосомные белки содержат мотив связывания цинка - так называемую цинковую ленту, три или четыре цистеина на правильном расстоянии друг относительно друга и в правильном контексте. Важное наблюдение Кунина с коллегами состояло в том, что один и тот же белок в некоторых организмах имеет эти цинковые мотивы, в других - не имеет, но, судя по всему, нормально функционирует и без цинка. А у некоторых бактерий один и тот же белок имеется в двух вариантах, с цинковой лентой и без нее.

И вот Катя заметила, что в последнем случае, когда есть два варианта белка в одном геноме, тот, который без цинковой ленты, репрессируется цинковым репрессором. Иначе говоря, в присутствии цинка экспрессируется вариант белка, которому цинк нужен, а в отсутствие цинка - тот, которому он не нужен.

Основа существования любой клетки - тяжелая промышленность, производство средств производства, точно так, как нас учили на лекциях по политэкономии социализма. Около 70% белка клетки - это белки рибосом, то есть органелл, которые нужны, чтобы делать другие белки. С другой стороны, цинк - кофактор ферментов, жизненно важных для клетки, таких, например, как ДНК-полимераза. Если цинка становится мало, его полностью забирают себе рибосомные белки, ферментам ничего не остается, и клетка погибает. Но у клетки есть резервная копия рибосомного белка, которому цинк не нужен. Мы предположили, что клетка включает синтез таких белков в условиях дефицита цинка и они встраиваются в часть рибосом на место цинксодержащих белков. При этом какое-то количество цинка высвобождается. Может быть, рибосомы после этого работают чуть менее эффективно, может быть, и вообще не работают - но ради того, чтобы цинка хватило жизненно важным ферментам, которые представлены существенно меньшим числом копий, стоит пожертвовать небольшой долей рибосом.

Мы написали статью, но в течение года ни один уважаемый журнал не принял к публикации безумную теорию о рибосомах как депо цинка. Однако мне Катина находка казалась очень красивой, и я единственный раз в жизни воспользовался тем, что мой дед, как член Академии наук США, имеет право представлять статьи для публикации в «Proceedings of the National Academy of Sciences of the USA ». Он послал статью на рецензию Кунину, который дал положительный отзыв (и, кажется, кому-то еще). Статья вышла в PNAS, и, как вскоре выяснилось, очень вовремя: через полгода появилась статья японских биологов, которые экспериментально показали то же самое. Можно догадаться, что они над этим работали давно, и, вероятно, им было немного обидно, что компьютерное предсказание предвосхитило их результаты.

Заметим, что вся эта история построена на очень мелких частных наблюдениях (есть в белке цистеины - нет цистеинов, есть потенциальный сайт репрессора - нет сайта...). Но в совокупности эти мелочи позволили сделать нетривиальное заключение, оказавшееся абсолютно верным. Вообще, когда мы публикуем статьи, то стараемся как можно более четко сказать, какое из наших предсказаний считаем надежным, а какое может оказаться неправильным. Так вот, среди тех, в которых мы были уверены, неправильных пока не оказалось ни одного (проверены уже десятки), а вот среди слабых проколы действительно были, хотя тоже не часто.

Отвертка со съемным жалом

Не менее красивыми были работы с белками-транспортерами (я в них участвовал только на ранних стадиях, поэтому имею полное право их хвалить, не становясь хвастуном). Транспортеры - золотое дно для биоинформатиков, поскольку опознать транспортер, в особенности бактериальный, достаточно легко. У них есть несколько гидрофобных спиралей, проходящих через мембрану: между ними находится канал, сквозь который ион или молекула, нужные для жизни клетки, проникают внутрь. Трансмембранные сегменты можно найти в белковой последовательности с помощью специальных программ. И если в неизвестном бактериальном белке пять или шесть таких сегментов, это почти наверняка транспортер (потому что другие трансмембранные белки, например участники дыхательной цепи или родопсин, хорошо известны). Остается установить, что за вещество он переносит.

Изучать специфичность транспортеров в эксперименте - удовольствие ниже среднего. С ферментами гораздо проще, это практически рутинная задача, которую можно доверить роботу. Вы гиперэкспрессируете фермент (то есть заставляете синтезироваться в больших количествах), а потом предлагаете ему пять сотен разных субстратов и смотрите, с каким из них пойдет реакция.

Транспортер, конечно, тоже можно гиперэкспрессировать. Но чтобы он заработал, он должен сразу встроиться в мембрану, иначе гидрофобные сегменты «налипнут» друг на друга, белок образует нефункциональные агрегаты. Поэтому приходится делать множество мембранных пузырьков-везикул, встраивать в них белки в правильной ориентации, а потом смотреть, попадает ли искомое вещество внутрь везикул. Вдобавок транспортеры бывают разные. Одни закачивают в клетку полезные вещества против градиента концентрации и затрачивают на это энергию молекулы АТФ, которую расщепляет специальный белок - АТФаза. Другие осуществляют вторичный транспорт - впуская «нужную» молекулу, одновременно выпускают по градиенту концентрации ион водорода, калия или натрия. Если транспортер АТФ-зависимый, то, чтобы он заработал, необходимо собирать конструкцию из нескольких белков, в том числе АТФазы. А если это вторичный транспорт, то нужно еще угадать, концентрацию какого иона надо увеличить внутри шарика. Отсюда ясно, что биохимия транспортеров - наука для сильных духом и экспериментальных данных по ним мало.

С другой стороны, определять специфичность транспортеров биоинформационными методами существенно проще. Достаточно прибегнуть к уже знакомой логике: например, если синтез этого белка регулируется цинковым репрессором, это, скорее всего, и будет цинковый транспортер, а если его ген находится в одном локусе с генами катаболизма рибозы, он, очевидно, переносит внутрь клетки рибозу... Именно таким образом мы в свое время нашли рибофлавиновый транспортер: имеется белок с неизвестной функцией, у него шесть потенциальных трансмембранных сегментов, регулируется совместно с генами рибофлавинового пути - значит, это транспортер либо рибофлавина, либо его предшественника. Но поскольку в некоторых геномах присутствовали и этот транспортер, и рибофлавин-зависимые белки, но не было пути синтеза рибофлавина из предшественников, значит, это мог быть транспортер только рибофлавина.

Проверять экспериментально конкретное предсказание существенно проще, чем начинать с нуля. Я всегда объясняю студентам, что биоинформатик - существо совершенно беззащитное, наподобие того персонажа приключенческого романа, который знает, где лежит клад. Пока он молчит, все его берегут и за ним ухаживают, но, когда он проговорится, он уже не нужен. Как только биоинформатик сказал «этот белок обладает такой-то функцией» - исключительно от порядочности экспериментаторов зависит, возьмут ли они его в соавторы после того, как проверят это утверждение. А утверждения, как читатель уже убедился, предельно простые и конкретные, достаточно один раз произнести их вслух.

С таких же простых умозаключений начиналась история более сложная, но и более интересная. Мы изучали регуляцию пути биосинтеза биотина (биотин - витамин Н, или В7, кофактор многих важных ферментов). Биотиновый транспортер был в это время не известен. У нас по ходу работы обнаружился транспортный белок, который регулируется, а иногда и локализуется вместе с генами биотинового пути. Дальше все как с рибофлавином: нашлись организмы, где биотинового пути нет, но есть белки, которые зависят него как от кофактора, и есть тот самый потенциальный транспортер - следовательно, это транспортер биотина.

Как уже было сказано, транспортеры бывают АТФ-зависимые и осуществляющие вторичный транспорт. Биотиновый транспортер был одиноким, никакого гена АТФазы поблизости не просматривалось, а значит, это был вторичный транспортер. Но затем мы увидели, что в некоторых геномах рядом с биотиновым транспортером попадаются какие-то АТФазы. Что это означает, на том этапе было непонятно, и потому мы просто упомянули про это в статье одной фразой.

Примерно тогда же мы изучали регуляцию кобаламинового пути. Кобаламин, или витамин В12, -также кофактор важных ферментов, очень крупная молекула с метаболическим путем соответственной сложности. Для этой истории существенно, что в центре молекулы кобаламина есть ион кобальта, который приносят в клетку опять же транспортеры. Таких транспортеров мы нашли немало, опубликовали о них статью - и в скором времени получили письмо от Томаса Эйтингера из Института микробиологии Гумбольдтовского университета (Берлин). Он призывал нас обратить внимание на то, что любой кобальтовый транспортер также может транспортировать никель, и наоборот, потому что специфичность у них слабая. Мы ответили, что рассматриваем транспортеры с точки зрения их функциональной роли в клетке, и если ген белка находится в одном опероне с большим набором генов кобаламинового синтеза - безусловно, белок нужен клетке как транспортер кобальта, хотя in vitro его и можно заставить переносить никель. А если мы видим ген транспортера в одном опероне с никель-зависимой уреазой, то это, безусловно, никелевый транспортер.

Намечались перспективы совместной работы, и Дмитрий Родионов, который делал эту работу, подал вместе с немецкими коллегами заявку на небольшой совместный грант и поехал на три месяца в Берлин. (Дмитрий закончил МИФИ, после чего занимался у нас геномикой; потом работал в США, а сейчас выиграл грант академической программы «Молекулярная и клеточная биология» на создание новой группы и возвращается в Москву.)

К этому времени мы с ними начали делать (по электронной почте) большой проект по сравнительной геномике транспортеров никеля и кобальта, где классифицировали их, во-первых, по регуляции, а во-вторых, по локализации, совместной с кобальтовыми или никелевыми функциональными белками. Так вот, в одном из этих никелево-кобальтовых семейств наблюдались некоторые странности. С одной стороны, АТФазы и трансмембранные белки, образующие канал для иона, как положено, располагались рядом и регулировались совместно. С другой стороны, в том же опероне мог находиться еще один трансмембранный белок. Причем эти «посторонние» белки в кобальтовых и никелевых транспортных системах отличались довольно сильно, не были гомологичными в отличие от АТФаз и трансмембранников. И вдобавок АТФаза и трансмембранный белок оказались гомологичными тем самым «лишним» биотиновым белкам, которые то попадались, то нет в предыдущем исследовании.

До сих пор не знаю, каким способом Дима уговорил немецких коллег на следующий безумный эксперимент. «Классическим» биохимикам, которые всю жизнь изучают транспорт кобальта и никеля у бактерий, он предложил: давайте у транспортера отключим АТФазу и трансмембранный белок, гомологичные биотиновым, оставим один только уникальный компонент. Ведь биотиновому транспортеру АТФаза и «основной» трансмембранник не очень нужны, они то есть, то их нет, - может быть, они и никелевому транспортеру не нужны, одинокий негомологичный трансмембранник и сам справится? Неизвестно, почему добропорядочные немецкие биохимики решились на это странное деяние: лишить вроде бы обычный АТФ-зависимый транспортер АТФазы и посмотреть, что будет. Так или иначе, Дима оказался прав. Одинокий трансмембранник работал как кобальтовый транспортер - менее эффективно, но работал. Это был первый пример двойной системы, которая, если есть АТФаза, работает какАТФ-зависимая, а если ее нет, работает как ион-зависимая.

Позднее берлинские коллеги то же самое сделали с биотином: взяли бактерию, у которой биотиновый транспортер имеет АТФазу и трансмембранник, отключили их гены - и показали, что этот белок в одиночестве тоже работает как биотиновый транспортер, хотя и с меньшей мощностью, чем в присутствии АТФазы.

Дмитрий Родионов в это время уже работал постдоком в лаборатории Андрея Остермана в Институте медицинских исследований Бэрнема в Ла-Хойе. Остерман - замечательный человек, биохимик, который понял эффективность биоинформатических методов, научился ими пользоваться и нашел с их помощью множество новых ферментов. И вот, когда Дмитрий попал в круг биохимиков и начал с ними общаться, оказалось, что подобных транспортеров, переносящих разные субстраты - кофакторы, аминокислоты, ионы, - существует несколько десятков. (Кстати, таким же оказался и рибофлавиновый транспортер.) Разные исследовательские группы независимо друг от друга изучали эти транспортеры, не имея представления о том, что они принадлежат к одному семейству.

Стало понятным и то, как возможна подобная организация. Кобальтовые и никелевые транспортеры отдельно от своей АТФазы не встречаются (если ее не убрать экспериментально). Но есть и другой класс бактериальных транспортеров, которые используют одну и ту же АТФазу - как отвертку со съемным жалом. Универсальные АТФаза и трансмембранный белок в этом случае могут кодироваться вместе с рибосомными белками, то есть экспрессируются постоянно и в больших количествах. А те белки, которые обеспечивают транспортерам специфичность, раскиданы там и сям в соответствующих оперонах. А в отсутствие АТФазы такой белок худо-бедно работает как вторичный транспортер, и поэтому в геномах некоторых организмов мы видим только его.

Биоинформатика и теория эволюции

Однако эти «прикладные» открытия - дело очень важное и полезное, но для нас, биоинформатиков, не главное. А главное, что принесла нам индустриальная революция в биологии, - появилась возможность на другом уровне обсуждать эволюцию. Даже банальные утверждения, скажем, о процентном сходстве геномов человека и шимпанзе нетактривиальны, как могут показаться. Молекулярная эволюция поучительна тем, что на ней замечательно выполняются дарвинистские представления о природе вещей.

Данные, полученные молекулярными биологами, теперь оказывают серьезное влияние на таксономию - классификацию растений и животных. Поначалу ботаники и зоологи скептически относились к молекулярным генеалогическим деревьям, показывающим степень родства между видами на основе сравнения нуклеотидных последовательностей, но надо признать, что и первые молекулярные деревья были не слишком удачными. Сейчас прямо на глазах происходит конвергенция - классическая и молекулярная таксономии движутся навстречу друг другу. Уже понятно, что молекулярные деревья, если они построены с соблюдением определенных правил, достаточно близки к реальности и вполне могут стать поводом для пересмотра ортодоксальных таксономических представлений, основанных на морфологии - сравнении внешних черт организмов. И, как ни странно, оказывается, что у видов, которых будто бы насильно помещают вместе исходя из сходства их генов, действительно отыскиваются общие признаки. Получается, что хорошее молекулярное дерево не противоречит морфологической конструкции, просто другие признаки оказываются ведущими.

Что касается бактерий, то в эпоху классической биологии их классифицировали по форме клеток и по метаболическим свойствам: какие сахара они могут утилизировать, какие аминокислоты и кофакторы могут синтезировать сами, а в каких нуждаются как в составной части внешней среды и т. п. Эта таксономия была очень слабой, поскольку у бактерий по сравнению с высшими организмами очень мало морфологических и функциональных признаков. Сегодня таксономия бактерий, по-видимому, полностью основывается на молекулярных данных. В массовом порядке пересматриваются видовые названия. Но самым впечатляющим достижением в этой области была, конечно, работа Карла Вёзе, который в 1977 году на основании молекулярной таксономии постулировал существование архебактерий (сейчас их называют археями) - третьего домена жизни, отличного от эукариот и «настоящих» бактерий.

Нельзя сказать, что все проблемы систематики бактерий отныне решены. В значительной мере оказалось разрушенным представление о том, что такое бактериальный вид. Обнаружилось, например, что у двух штаммов кишечной палочки - представителей одного вида - до трети генов могут быть уникальными, то есть присутствовать в одном штамме и отсутствовать в другом. Много неожиданного и интересного уже известно о бактериальной эволюции. В частности, оказалось, что горизонтальный перенос - обмен генетическим материалом - может происходить между таксономически далекими существами. Например, Metanosarcina - типичная архея, но треть ее генов имеют бактериальное происхождение, и эти гены обслуживают практически весь ее метаболизм, в то время как механизмы транскрипции, трансляции, репликация, устройство мембраны у метаносарцины характерны для архей. По этому примеру можно судить о том, насколько увлекательно сейчас заниматься эволюцией бактерий.

На мой взгляд, самое интересное - это эволюция регуляторных систем. Мы достаточно много знаем про эти системы у бактерий и можем представить, как меняются регуляторные системы, как локальный регулятор вдруг начинает управлять десятками генов или меняет специфичность, как перестраиваются регуляторные каскады. И это может быть очень важно с фундаментальной точки зрения, потому что здесь можно пойти гораздо дальше. Отличие человека от шимпанзе или даже от мыши едва ли обусловлено набором генов: они у млекопитающих практически одни и те же, если сравнивать по набору функций. Причина скорее в регуляции: какие гены, когда и в каких тканях активны.

Скорее всего, «скачки» эволюции, любые резкие изменения морфологических признаков обеспечиваются как раз на уровне регуляции. Мы уже знаем такие примеры у бактерий, дрожжей и других относительно простых организмов. У большинства бактерий имеется один железный репрессор, который реагирует на присутствие ионов железа и регулирует множество генов: белки, обеспечивающие запасание и транспорт железа, железозависимые ферменты. А у других бактерий есть три разных репрессора, которые эти функциональные группы поделили: одни регулируют запасание железа, другие транспорт и синтез, третьи - ферменты. Это на самом деле радикальное изменение, был один ответ на железо, а получилось три разных.

Есть замечательные экспериментальные работы, выполненные на многоклеточных. Почему морской еж единственный среди иглокожих имеет твердый скелет? Ответ предложил Эрик Дэвидсон из Калифорнийского технологического института. Он изучил регуляторный каскад, который отвечает за развитие этого скелета, а потом нашел этот каскад у морской звезды, только у нее он включается существенно позднее, поэтому развиваются лишь основания иголочек, не соединенные между собой. У ежа тот же каскад включается на какое-то количество клеточных делений раньше, соответственно захватывает большее число клеток, и развивается сплошной скелет. Таким образом, чисто регуляторное изменение дает абсолютно новый признак.

У меня есть надежда, что сравнительный анализ регуляции даст ответы на вопрос, который беспокоит палеонтологов и морфологов на нынешнем этапе развития синтетической теории эволюции: каким образом накопление мелких изменений дает радикально новые признаки? Похоже, что это можно объяснить перенастройкой регуляции. Мы уже умеем это делать на простых организмах, но рано или поздно очередь дойдет и до более сложных. И когда это случится, произойдет третий большой прорыв в этом направлении, если первым считать дарвиновский естественный отбор, а вторым - соединение эволюционной биологии с генетикой.

Биоинформатика (bioinformatics) - быстро развивающаяся отрасль информатики (теории информации) , занимающаяся теоретическими вопросами хранения и передачи информации в биологических системах.

Основными разделами биоинформатики являются компьютерная геномика , решающая проблемы расшифровки генетических "текстов", хранящихся в последовательностях нуклеотидов ДНК (РНК), и метабономика , исследующая организацию метаболизма клетки и его управления со стороны генома. Важное значение для развития основных разделов биоинформатики имеет создание компьютерных баз данных по молекулярной биологии, обеспечивающих геномику и метабономику необходимыми для их развития экспериментальными данными в достаточном количестве и удобной для использования форме.

К биоинформатике часто относят также информационные службы, обеспечивающую накопление, хранение и использование приобретаемых наукой знаний о биологических системах.

Целью биоинформатики является, таким образом, как накопление биологических знаний в форме, обеспечивающей их наиболее эффективное использование, так и построение и анализ математических моделей биологических систем и их элементов.

Информация о строении материальных элементов, обеспечивающих функционирование организма хранится в последовательности нуклеотидов ДНК (или РНК), образующей его геном.

Установление нуклеотидных последовательностей ДНК геномов организмов (секвенирование) стало к началу 21 века хорошо освоенной и, видимо, достаточно рентабельной технологией. Количество секвенированных геномов быстро увеличивается и определяется, в основном, только объемом средств, которые можно затратить на эти цели.

В биоинформатике существует специальный раздел, называемый геномикой , предметом которого является моделирование и исследование способов хранения информации о строении основных материальных элементов биологических систем, закодированной в последовательностях ДНК и РНК. Основные усилия ученых всего мира, работающих в области геномики сосредоточены сейчас на том, чтобы выработать эффективные приемы компьютерного анализа генетических "текстов", представляющих собой последовательности нуклеотидов генома клетки. Под анализом (расшифровкой) генетического текста имеется в виду в первую очередь установление возможных функций различных участков последовательности ДНК, т.е. обнаружение генов, их регуляторных и белок-кодирующих участков, и участков обеспечивающих регуляцию и координацию активности генов.

Наиболее остро сейчас стоит вопрос об идентификации (аннотации) последовательностей нуклеотидов, образующих гены человека, т.к. в соответствии с Международным проектом Геном человека планируется, что геном человека будет полностью секвенирован и доступен для анализа в ближайшие 1-2 года.

Надо сказать, что выделение на нуклеотидной последовательности ДНК участков с заданными функциями задача очень не простая, т.к. они весьма неоднородны по своей природе (что вероятно связано со сложностью механизмов регуляции) и маскируются мутационным шумом.

В настоящее время точность определения генов на нуклеотидной последовательности компьютерными методами, вероятно, не превышает 70%.

Чрезвычайно важным, но на сегодня еще очень мало разработанным предметом биоинформационных исследований является обмен веществ в клетке, метаболизм. Соответствующий раздел биоинформатики, содержанием которого является моделирование метаболизма и исследование совместного функционирования материальных элементов биологической системы, можно было бы назвать метабономикой (по аналогии с геномикой). Задачами метабономики является выявление и моделирование динамической структуры метаболизма, обеспечивающей поддержание гомеостаза в клетке за счет регуляторных свойств уже существующих в клетке ферментов и функционирования генома, поддерживающего существование этой структуры.

С точки зрения биоинформатики клетку можно рассматривать как сложную систему имеющую множество чувствительных устройств для восприятия внешних сигналов, внутренние коммутирующие устройства, сортирующие и трансформирующие внешние сигналы, и исполнительные механизмы, определяющие конечную реакцию клетки на сигналы. Совокупность внешних сигналов (локальная концентрация различных факторов) определяет переход клетки в одно из квазистационарных состояний, которых может быть, по-видимому, несколько десятков в зависимости от типа клетки. Например, клетка может под воздействием пролиферативных сигналов выйти из состояния относительного покоя и перейти к началу деления, под влиянием других факторов перейти к фазе окончания деления, под воздействием третьих факторов перейти в состояние покоя или наоборот снова вступить в фазу деления.

При этом переход в одно и то же состояние клетки может быть вызван множеством различных комбинаций факторов, влияющих на клетку. Клетка сама воздействует на соседние клетки, формируя вокруг с себя локальное "поле" путем выделения своих специфических факторов. Наложение этих " полей" соседних клеток может вызвать результирующую реакцию ткани на внешний стимул. Например, такой реакцией является распространение "кальциевой волны" от клетки к клетке и такие явления, как периодические волнообразные сокращения сосудов или кишечника. В результате воздействий на клетку в конечном счете в ней активируются или репрессируются определенные наборы генов. При этом ясно, что работа каждого гена регулируется множеством факторов. Однако также ясно, что общее число элементарных регулирующих факторов (т.е. кодируемых одним геном) должно быть существенно меньше общего числа генов.

Таким образом, малое число элементарных факторов (по сравнению с общим числом генов) должно обеспечивать регуляцию большого числа генов. Это заставляет думать, что наблюдаемое множество регулирующих факторов образуется за счет разнообразных комбинаций сравнительно небольшого числа элементарных факторов. Это напоминает телефонную связь. Набирая ту или другую комбинацию из небольшого числа кнопок на телефонном аппарате, можно связаться с большим числом различных абонентов.

Примером клеточного регуляторного механизма, построенного на использовании коммутационного принципа, можно считать работу транскрипционных факторов, регулирующих экспрессию генов. Известно, что их сложное влияние на считывание генов осуществляется за счет формированием большого числа различных комплексов молекул факторов друг с другом.

Можно думать, что в самой структуре белковых молекул заложена возможность образовывать несколько различных олигомерных форм, что может обеспечить клетку большим числом регуляторных факторов, образованных из небольшого числа элементов.

Механизм, основанный на использовании комбинаторики элементарных факторов (субъединиц ферментов) был предложен Л.Н.Дроздовым-Тихомировым и др. (Drozdov- Tikhomiriv et al, 1999) для объяснения регуляции активности аллостерических ферментов, и может быть эффективно использован для решения задач, возникающих при моделировании и исследовании метаболизма.

Главное в этом механизме - возможность сборки активной структуры (активного центра фермента, сайта специфического связывания и т.д.) из элементов, имеющихся на субъединицах, при ассоциации субъединиц в различных взаимных ориентациях. Использование такого механизма позволяет уже всего при двух субъединицах получить сравнительно большое количество состояний составного регуляторного фактора и построить достаточно сложную схему регуляции.

Следующим после клетки уровнем сложности биологических систем является многоклеточный организм, его структура и его функционирование. Этот уровень относится традиционно к физиологии. Построение биоинформационных моделей этого уровня слишком сложно и в настоящее время практически невозможно, также как и представляющих большой интерес моделей еще более высокого уровня - популяционных или в случае человека - социальных. Если мы говорим, что целью биоинформатики является построение адекватных моделей биологических процессов, то необходимо думать о создании фундамента, основ, необходимых для проведения этой работы, - баз знаний, содержащих необходимый объем научных данных о биологических процессах. Базы данных (БД) - это системы хранения, поиска и выдачи нужной информации. В области биоинформатики, связанной с анализом генетических текстов, т.е. геномики, БД уже давно стали незаменимым инструментом исследований. Точно так же они необходимы в сравнительно недавно начавшей развиваться метабономике, связанной с анализом метаболизма.

Перспективы дальнейшего развития биоинформатики весьма многообещающие. Это связано с рядом обстоятельств. С бурным развитием вычислительной техники, телекоммуникаций и Интернета, открывающим перед заинтересованными исследователями прежде недоступные технические возможности оперативного получения информации, возможности быстрой компьютерной обработки огромного количества данных и т.д. Этому способствует также то, что появилось огромное количество информации, включающей как аннотрованные первичные структуры, так и данные по экспрессии генов, по контролируемым ими метаболическим путям, по регуляторным характеристикам ферментов и механизмам управления их активностью. Знание полных геномов дает возможность осуществить исчерпывающий анализ генома, что позволит полностью описать организмы на определенном уровне. Развитие в этой области идет столь успешно, Что высказываются шутливые опасения, что через несколько лет будет выяснено все, что только можно выяснитьи делать уже будет нечего. Наличие больших геномов и проблемы сравнительной компьютерной геномики выдвигают перед специалистами в этой области очень сложные алгоритмические задачи, решение которых потребует немалого труда. Наверное, еще более сложные проблемы возникают в компьютерной метабономике, которая наряду с задачами анализа существующих метаболических систем ставит смелые задачи проникнуть в сокровенные тайны алгоритмов возникновения, сохранения и самосовершенствования живых систем. Можно ожидать, что в ближайшее время методы и результаты компьютерной биоинформатики найдут широчайшее применение для целей медицины, фармацевтики (drug design), биотехнологии сельского хозяйства и образования. В передовых странах мира наблюдается тенденция к щедрому финансированию работ в этой области. Задача специалистов в области биоинформатики - достойно ответить на этот вызов времени.

Биоинформа́тика - в настоящее время, данным термином обозначаются любые попытки биологов ввести обобщения эвристического толка на гигантские массивы биологических данных. До недавнего времени (2000-2002г), под биоинформатикой подразумевалось, в большинстве случаев, использование процедур сравнения символьных последовательностей (аминокислотные последовательности белков, нуклеотидные последовательности ДНК и РНК). После публикации последовательности генома человека в начале 2000-х годов стало ясно, что сравнение символьных последовательностей само по себе не позволяет дать ответ на вопросы о функции генов и белков. Поэтому, сейчас происходит разворот в сторону более широкого понимания биоинформатики как "менеджмента разнородных биологических данных" (см. https://www.novapublishers.com/catalog/product_info.php?products_id=4277).

Терминология

Лексический анализ слова "биоинформатика" указывает на приставку "био-" (от греч.. Однако, как это не парадоксально, "биоинформатика" (англ. bioinformatics), до недавнего времени, не имела практически ничего общего с "информатикой" (англ. "computer science"). В этом легко убедится, проведя поиски по этим ключевым словам в базах данных публикаций по всем областям биологии, включая биоинформатику. В базе данных MEDLINE содержится почти 20 млн абстрактов (см. http://www.ncbi.nlm.nih.gov/sites/entrez). В среде биологов, под биоинформатикой понимают использование компьютеров для обработки экспериментальных данных по структуре биологических макромолекул белков и нуклеиновых кислот с целью получения биологически значимой информации. Основные усилия исследователей в этой области направлены на изучение геномов , анализ и распознавание (менее приемлемый термин "предсказание") структуры белков , анализ и распознавание ("предсказание") взаимодействий молекул белков различных типов друг с другом и др.

Термины биоинформатика и «вычислительная биология » часто употребляются как синонимы, хотя каждый автор в данной области придумывает, как правило, свои собственные определения для каждого. Иногда считают, что не всякое использование вычислительных методов в биологии является биоинформатикой, например, математическое моделирование биологических процессов - это не биоинформатика.

Основные области исследований

Анализ генетических последовательностей

Начиная с середины 1970-х, было поределено более 100 млн нуклеотидных последовательностей генов различных организмов. Эти данные используются для определения последовательностей белков и регуляторных участков. Сравнение генов в рамках одного или разных видов может продемонстрировать сходство функций белков или отношения между видами (таким образом могут быть составлены филогенетические деревья). С возрастанием количества данных уже давно стало невозможным вручную анализировать последовательности. В наши дни для поиска по геномам тысяч организмов, состоящих из миллиардов пар нуклеотидов используются компьютерные программы. Программы могут однозначно сопоставить («выровнять») похожие последовательности ДНК в геномах разных видов; часто такие последовательности несут сходные функции, а различия возникают в результате мелких мутаций, таких как замены отдельных нуклеотидов, вставки нуклеотидов, и их «выпадения» (делеции). Один из вариантов такого выравнивания применяется при самом процессе секвенирования. Так называемая техника «дробного секвенирования» (которая была, например, использована для секвенирования первого бактериального генома, Haemophilus influenzae ) вместо полной последовательности нуклеотидов даёт последовательности коротких фрагментов ДНК (каждый длиной около 600-800 нуклеотидов). Концы фрагментов накладываются друг на друга и, совмещённые должным образом, дают полный геном. Такой метод быстро даёт результаты секвенирования, но сборка фрагментов может быть довольно сложной задачей для больших геномов. В проекте по расшифроке генома человека сборка заняла несколько месяцев компьютерного времени. Сейчас этот метод применяется для практически всех геномов, и алгоритмы сборки геномов являются одной из острейших проблем биоинформатики на сегодняшний момент.

Другим примером применения компьютерного анализа последовательностей является автоматический поиск генов и регуляторных последовательностей в геноме. Не все нуклеотиды в геноме используются для задания последовательностей белков. Например, в геномах высших организмов, большие сегменты ДНК явно не кодируют белки и их функциональная роль неизвестна. Разработка алгоритмов выявления кодирующих белки участков генома является важной задачей современной биоинформатики.

Биоинформатика помогает связать геномные и протеомные проекты, к примеру, помогая в использовании последовательности ДНК для идентификации белков.

Аннотация геномов

В контексте геномики аннотация - процесс маркировки генов и других объектов в последовательности ДНК.

Основные программы сравнения аминокислотных и нуклеотидных последовательностей

  • ACT (Artemis Comparison Tool) - геномный анализ
  • Arlequin - анализ популяционно-генетических данных
  • BioEdit
  • BioNumerics - коммерческий универсальный пакет программ
  • BLAST - поиск родственных последовательностей в базе данных нуклеотидных и аминокислотных последовательностей
  • ClustalW
  • ClustalX - множественное выравнивание нуклеотидных и аминокислотных последовательностей
  • FASTA - набор алгоритмов определения схожести нуклеотидных и аминокислотных последовательностей
  • JalView - редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
  • Mesquite - программа для сравнительной биологии на языке Java
  • Muscle - множественное сравнение нуклеотидных и аминокислотных последовательностей. Более быстрая и точная по сравнению с

Биоинформатика как наука появилась на стыке молекулярной биологии, генетики, математики и компьютерных технологий. Ее основная задача - разработка вычислительных алгоритмов для анализа и систематизации данных о структуре и функциях биологических молекул, прежде всего нуклеиновых кислот и белков. Объем генетической информации, накапливаемой в банках данных, начал увеличиваться с возрастающей скоростью после того, как были разработаны быстрые методы секвенирования (расшифровки нуклеотидных последовательностей ДНК). Биоинформатические методы позволяют не просто обрабатывать этот огромный массив данных, но и выявлять закономерности, которые не всегда можно заметить при обычном эксперименте, предсказывать функции генов и зашифрованных в них белков, строить модели взаимодействия генов в клетке, конструировать лекарства. В июле 2004 года в новосибирском Академгородке прошла четвертая Международная конференция по биоинформатике регуляции и структуры генома (BGRS"2004), организованная Институтом цитологии и генетики Сибирского отделения Российской академии наук. В течение недели более 200 ученых из разных стран - России, Германии, США, Англии, Италии, Франции, Японии и других - обсуждали проблемы компьютерной геномики, системной и эволюционной биологии, а также протеомики - нового научного направления, связанного с исследованием белков и их взаимодействия в организме. На конференции побывала специальный корреспондент журнала "Наука и жизнь" Г. АФАНАСЬЕВА.

Наука и жизнь // Иллюстрации

Член-корреспондент РАН Н. А. Колчанов открывает четвертую Международную конференцию по биоинформатике регуляции и структуры генома.

Трехмерная модель контакта регуляторного белка с молекулой ДНК. О молекулярном моделировании пространственной структуры белков и их взаимодействии с нуклеиновыми кислотами рассказали Р. Г. Ефремов (Институт биоорганической химии) и К. В. Шайтан (МГУ).

Заседание, посвященное эволюционной биологии, ведет доктор биологических наук М. С. Гельфанд.

Пространственная организация и функционирование активных центров белков.

Чтобы сконструировать лекарство точечного действия, нужно подобрать вещество (лиганд), которое входит в белок-мишень, как ключ в замок. Для этого необходимо знать пространственную структуру молекул.

Нуклеотидная последовательность ε-гемо-глобина человека.

Генная сеть антивирусного ответа.

Регуляция системы дыхания.

Оживленные дискуссии продолжались в перерывах между заседаниями. Сложную науку объясняет "на пальцах" гость из Индии доктор Сринивасан Рамачандран (Институт геномики, Дели).

КОГДА БИОЛОГИЯ НАЧАЛА ГОВОРИТЬ ЯЗЫКОМ МАТЕМАТИКИ…

Так когда же появилась биоинформатика, которую сейчас с уверенностью называют наукой третьего тысячелетия? Вот что говорит об этом доктор биологических наук Рустэм Нурович Чураев, заведующий отделом эпигенетики Института биологии Уфимского научного центра и заведующий лабораторией математической и молекулярной генетики:

"Можно считать, что эта наука зародилась в XIII веке. Тогда молодой итальянец Леонардо из Пизы, вошедший в историю математики под именем Фибоначчи, описал решение задачи о размножении кроликов и, таким образом, построил первую математическую модель биологического процесса. По сути, этот любопытный случай и положил начало математической биологии. В 20-е годы XX века другой итальянский математик, Вито Вольтерра, создал модель совместного существования двух биологических популяций типа "хищник-жерт ва". У математиков появился интерес к теоретической биологии, а у биологов, в свою очередь, возникла потребность к систематизации науки с математических позиций. После Второй мировой войны в биологию пришли физики и математики. Это событие во многом индуцировал Шредингер выходом в свет своей книги "Что такое жизнь с точки зрения физики?". Среди них были такие знаменитые ученые, как Алексей Андреевич Ляпунов и Игорь Андреевич Полетаев. Благодаря их научным работам начал развиваться кибернетический подход к биологическим процессам. Вадим Александрович Ратнер, ученик Ляпунова, в начале 1960-х годов применил математический подход к описанию явлений молекулярного уровня в сложных системах.

В 1975 году была создана первая известная количественная модель управления развитием фага "лямбда". Его геном содержит 48 генов (совсем немного по нынешним меркам), но имеет сложную управляющую систему. Эта и более сложные системы уже требовали использования компьютеров. Из математической биологии стала выделяться отдельная ветвь - биоинформатика, которая предполагает применение информационных технологий для изучения биологических систем. Следует отметить большую роль Института цитологии и генетики Сибирского отделения РАН в развитии биоинформатики. Это область со своей проблематикой и методикой, которые немыслимы без компьютеров. Накапливается много данных, идет вал информации о первичных последовательностях геномов молекул ДНК".

IN SILICO ИЛИ IN VIVO?

Конечно, для анализа огромного массива данных требуются высокопроизводительные вычисления, и обычный компьютер не способен справиться с такой задачей - не хватит объема памяти и времени. Какие компьютерные технологии предлагают сегодня биоинформатикам? Сначала в США появилась высокопроизводительная система "Cray" - громадная установка, которая занимает объем комнаты, но если собрать вместе обычные компьютеры, чтобы получить такую же мощность, получится пятиэтажный дом. Сегодня, к примеру, все больше используется суперкомпьютер "Blue" (именно он обыграл Гарри Каспарова в шахматном поединке). Этот компьютер способен проанализировать громадное количество комбинаций за довольно короткий период времени (от нескольких минут до нескольких дней, в зависимости от сложности поставленной задачи). Не менее важны так называемые компьютерные кластеры, то есть несколько последовательно соединенных обычных компьютеров. Задача разделяется на части, работа с которыми идет параллельно. Возможно, как раз подобная технология найдет широкое применение в будущем, так как параллельная обработка данных наиболее эффективна. В последнее время возник такой метод, как распределенные вычисления, когда в расчетах участвует множество компьютеров в разных странах и каждый компьютер выполняет одну небольшую часть задачи.

Суперкомпьютеры необходимой мощности существуют и в России, например в Пущине. При наличии оптоволоконных сетей к нему может подключиться лаборатория, которая находится даже в другом городе.

Сравнительно недавно в науке появился термин "биология in silico", буквальный смысл которого - "биология на кремнии", говоря иными словами, проведение биологического эксперимента на компьютере. Сейчас это понятие стало вполне официальным и широко используется. Есть журнал, который так и называется - "In silico biology".

Биоинформатика дает возможность быстро и дешево провести модельный эксперимент и зачастую предсказать результат эксперимента обычного. Но модели компьютерной жизни все же пока далеки от реальности. Во всем мире ведутся активные исследования для максимального приближения in silico к in vivo. Это означает не только привлечение к расчетам данных о структуре и функции исследуемого белка, но и учет взаимодействия между белками в реальной среде. В проект виртуальной клетки сейчас вкладываются огромные средства. В России, например, такие работы ведутся в Пущинском научном центре. Создание "электронной клетки" даст возможность эффективно конструировать лекарства нового поколения. О перспективах биоинформатики и о доверии экспериментаторов к предсказаниям in silico говорил доктор биологических наук Михаил Сергеевич Гельфанд:

"Биоинформатика - это способ делать биологические утверждения, не наблюдая непосредственно природу (как, например, в зоологии) и не ставя эксперименты (как в молекулярной биологии), а путем анализа уже полученных массовых экспериментальных результатов. Конечно, основой всего является геном: только зная все гены организма, можно делать надежные выводы. А массовые данные получаются из экспериментов, поставленных на индустриальный поток: это расшифровка геномов, изучение синтеза закодированных в генах белков, определение белок-белковых взаимодействий в различных организмах, клетках, условиях роста… Раньше для получения такого рода данных ставились специальные эксперименты, но представьте себе: у средней бактерии примерно 3000 генов, у человека - на порядок больше, 30 000, белков еще больше - сколько же надо провести экспериментов, например, для того, чтобы проверить все пары белков, взаимодействуют ли они. И при этом основное время как раз уйдет на "пустые" эксперименты, с невзаимодействующими белками. Массовый эксперимент - это сотня экспериментов одновременно, которые выполняют несколько десятков роботов. Однако при этом возникает высокий уровень "шума" - случайных ошибок, и задача биоинформатики - извлечь из этих данных достоверные утверждения.

То же самое с функциями генов. В принципе, выяснение функции одного гена в эксперименте - это год работы сильного исследователя и хорошая статья. Но генов-то тысячи в каждом организме. И вот оказывается, что биоинформатика позволяет делать надежные предсказания, которые поддаются уже целенаправленной экспериментальной проверке. Это получается намного проще, быстрее и дешевле. Конечно, бывают и ошибочные выводы, что вызывает недоверие у "традиционных" биологов. Но тут ситуация такая же, как с любой новой техникой исследования. Когда появился микроскоп, тоже поначалу мерещилось много всякого, например, некоторые описывали, что видят маленького зародыша в сперматозоиде. Но постепенно экспериментаторы приобретают вкус к биоинформатическим методам и научаются отделять зерна от плевел, а сами биоинформатики начинают более критично относиться к своей работе. В конечном счете возникает совершенно новое мощное средство для биологических исследований. Собственно, оно уже сейчас есть, надо его развивать и учиться им пользоваться - для этого и проводятся подобные конференции".

Среди основных задач биоинформатики - описание генных сетей, изобретение новых лекарств с заданными свойствами, разработка компьютерных моделей процессов, происходящих в организме.

КОМПЬЮТЕР ПРОЕКТИРУЕТ ЛЕКАРСТВА

Одна из самых перспективных и быстро развивающихся областей биоинформатики - конструирование лекарств направленного действия. Действие таких препаратов нацелено на центры связывания конкретного белка в организме возбудителя болезни. При этом аналогичные белки человека не подвергаются изменениям, а значит, нет и побочных эффектов. Создание лекарства направленного действия требует знаний о трехмерной структуре белка-мишени, так как точное пространственное соответствие играет ключевую роль.

Структура белков зашифрована в ДНК, но разобраться в этом шифре не так-то просто. Дело в том, что ген белка помимо кодирующих фрагментов (их называют экзонами) содержит интроны - участки, которые никакой полезной информации о белке не несут. То есть "слова" генетического кода прерываются довольно длинными вставками из случайного набора "букв". Большое число докладов на конференции BGRS"2004 были посвящены поиску новых эффективных методов распознавания экзон-интронной структуры ДНК, а также определению пространственной структуры белков по известной последовательности аминокислот. Об этом говорили в своих выступлениях Ю. Л. Орлов (Институт цитологии и генетики, Новосибирск), М. А. Ройтберг (Институт математических проблем биологии РАН, Пущино) и многие другие. И. И. Абнизова (Великобритания) рассказала о новых вычислительных подходах, которые позволяют судить о функции участков ДНК по тому, каким образом распределены в нем нуклеотиды.

Сегодня наиболее эффективный метод анализа белков - не постепенная расшифровка структуры для каждого отдельного белка, а сравнение со структурами родственных (гомологичных) белков, которые уже расшифрованы. Наиболее близкая из известных последовательностей берется за "точку отсчета", и дальше проводится ее уточнение. Данные рентгеноструктурного анализа и ядерно-магнитного резонанса позволяют предсказывать пространственную структуру схожих белков и делать вывод об их возможной функции в организме.

Когда пространственная структура белка-мишени установлена, наступает следующий этап: поиск низкомолекулярного вещества (лиганда), которое, соединившись с белком, будет оказывать нужное фармакологическое действие. Такой поиск связан с перебором не одной тысячи вариантов, и без компьютерных технологий тут не обойтись.

ГЕННЫЕ СЕТИ

Гены в клетках организма могут взаимодействовать друг с другом посредством своих продуктов - белков. Например, регуляторные белки способны связываться с определенными участками ДНК, и, таким образом, один ген может включить или выключить другой. Благодаря подобному взаимодействию образуется генная сеть, охватывающая значительное количество генов (от десятков до сотен), которые координируют свою деятельность и контролируют выполнение определенных функций в организме. Выяснение механизмов функционирования генных сетей представляет принципиально важную задачу, ведь именно они определяют внешние признаки организма и наследственные заболевания. Полная и ясная картина взаимодействия генов откроет новые возможности для генной диагностики и генной терапии. Эта тема была одной из центральных на конференции.

В конструировании искусственных генных сетей используется представление об эпигене как новом классе наследственных единиц, разработанное Р. Н. Чураевым в 1975 году. Эпиген - это "надгенная" система с двумя или более наследуемыми режимами работы генов (например, когда определенный ген "включен" и когда он "выключен"). Эпиген запоминает режим, в котором он находится, и передает информацию об активности генов по наследству. Такая концепция позволяет объяснить наблюдаемые экспериментально случаи наследования приобретенных признаков и ряд других феноменов.

ЭВОЛЮЦИЯ ЧЕРЕЗ ПРИЗМУ БИОИНФОРМАТИКИ

Сравнение геномов различных организмов дает возможность прослеживать эволюцию живых организмов. В секции компьютерной эволюционной биологии М. С. Гельфанд представил доклад, посвященный эволюции регуляторных систем бактерий. Анализ сотен бактериальных геномов позволил описать поведение регуляторных систем в ходе эволюции на самых разных уровнях: эволюцию отдельных регуляторных сигналов, изменения в структуре белков-регуляторов, поведение наборов регулируемых генов и, наконец, полную перестройку регуляторных систем. Возможно, самая древняя регуляторная система - так называемые РНК-переключатели, о которых рассказал доктор биологических наук Андрей Александрович Миронов. РНК-переключатель представляет собой молекулу РНК, которая способна не только переносить информацию, но и управлять активностью гена самостоятельно, без помощи белков. Регулирующие свойства РНК-переключателей были вначале предсказаны методами биоинформатики, а затем обнаружены экспериментально. В пользу предположения о древности системы РНК-переключателей говорят два факта: присутствие регуляторных сигналов такого типа практически во всех группах организмов от бактерий и архебактерий до растений и грибов и то, что регуляция осуществляется непосредственно при связывании регуляторной структуры РНК с малыми молекулами (витаминами и аминокислотами) без участия какого-либо посредника. Тем самым такие регуляторные системы могли существовать в "РНК-мире" еще до появления белков.

С практической точки зрения интересно исследование, проведенное в группе Гельфанда А. Е. Казаковым, О. В. Калининой и Е. А. Перминой. Они исследовали устойчивость бактерий к тяжелым металлам. Во многих случаях эта устойчивость обеспечивается белками-транспортерами, выбрасывающими токсичные катионы металла из клетки. Однако различных транспортеров много, они весьма разнообразны, и предсказать специфичность белка-транспортера к тому или иному металлу удается далеко не всегда. Исследователи пошли другим путем: они изучили, как регулируется работа генов, кодирующих белки-транспортеры. Оказалось, что в ней участвует определенное семейство белков-репрессоров, узнающих о присутствии катионов металлов при помощи специального функционального участка, в который входят не менее трех остатков аминокислоты цистеина. Связавшись с катионом, белок-репрессор освобождает сигнальный участок ДНК и тем самым запускает работу гена, кодирующего белок-транспортер. Авторы показали, что по последовательности сигнального участка в ДНК можно предсказать, к какой группе относится соответствующий белок-репрессор, а эти белки высокоспецифичны к катионам металлов. Полученные результаты могут быть использованы для создания надежных индикаторов на загрязнение. А по схеме, построенной учеными, можно предсказать, к каким металлам будет нечувствительна та или иная бактерия, что особенно важно при создании штаммов, применяемых для биологической очистки промышленных стоков.

БИОИНФОРМАТИКА - НАУКА ИЛИ МЕТОД ИССЛЕДОВАНИЯ?

На этот вопрос, вызывающий немало споров среди ученых, ответил председатель оргкомитета конференции член-корреспондент РАН Николай Александрович Колчанов:

"И наука, и метод, и стратегия исследования. Метод - если рассматривать биоинформатику как набор технологий, позволяющий работать с огромным массивом данных и получать с их помощью новые результаты. Научная сторона биоинформатики связана с развитием информационной биологии. Как любая наука, она имеет собственные задачи и занимается изучением механизмов хранения, передачи и реализации биологической информации на разных уровнях. Таких уровней несколько: геном, клетка, взаимодействие между клетками, организм, популяция в целом. Биоинформатика появилась на стыке наук - молекулярной биологии, физиологии, математики, информатики, физики и химии, а такого рода объединения имеют стратегический характер. Самые крупные достижения возникают тогда, когда происходит синтез наук. Биология и информатика - классическое отражение этой ситуации".

Первая конференция по биоинформатике регуляции и структуры генома состоялась в Академгородке по инициативе Института цитологии и генетики Сибирского отделения РАН в 1998 году. Что изменилось за прошедшие шесть лет? Вновь слово Н. А. Колчанову:

"В 2002 году закончена расшифровка генома человека. Следующая важнейшая задача - расшифровать протеом. Этот термин образован от слова "протеин" (по аналогии с геномом) и означает совокупность белков, которые функционируют в организме. Конечно, получение "белкового портрета" организма потребует времени, но в принципе эта задача вполне решаема. Общий объем накопленной информации сейчас таков, что на первый план выходит системная биология, цель которой - не просто объединить достижения, полученные различными методами, но интегрировать знания и перевести их на качественно новый уровень. Помимо глобальных задач появилось много интересных прикладных направлений, например технология ДНК-микрочипов. Изменения в направлениях исследований отражаются и в тематике конференции".

Иллюстрация "Пространственная организация и функционирование активных центров белков".
Конфигурация активного центра белка (выделен цветом) обеспечивает избирательность биохимических взаимодействий. Новейшие достижения в исследованиях пространственной организации и функционирования активных центров белков представили М. Ондрехен (США), С. Рамачандран (Индия), Д. А. Афонников, В. А. Иванисенко (Институт цитологии и генетики, г. Новосибирск) и другие участники конференции.

Иллюстрация "Нуклеотидная последовательность ε-гемо-глобина человека".
Нуклеотидная последовательность ε-гемо-глобина человека. Синим цветом выделены информативные участки - экзоны, красным - "бессмысленные" интроны. Одна из задач биоинформатики - определить экзон-интронную структуру и распознать те области в геномах, которые кодируют белки.

Иллюстрация "Генная сеть антивирусного ответа".
Генная сеть, приведенная на рисунке в качестве примера, включает комбинацию положительных и отрицательных обратных связей. При попадании вируса в клетку происходит активация гена интерферона- β (IFN-β). Белок (фактор транскрипции) IRF-1 вначале усиливает работу гена, продуцирующего интерферон, а позднее запускает синтез другого белка IRF-2, который подавляет производство интерферона, обеспечивая возвращение системы в исходное состояние. Прямоугольниками на рисунке обозначены гены, а кружками - белки.

Иллюстрация "Регуляция системы дыхания".
В регуляции системы дыхания у бактерий участвуют различные белки-регуляторы (факторы транскрипции), в частности FNR (переключатель аэробно-анаэробного метаболизма), ArcA (датчик наличия кислорода) и NarP (регулятор азотного дыхания). Д. А. Равчеев и А. В. Герасимова из исследовательской группы М. С. Гельфанда провели компьютерное сравнение бактериальных геномов и установили, что у микроорганизмов разных групп эти белки могут формировать различные регуляторные каскады. На рисунке белки представлены цветными фигурами, кодирующие их гены - фрагментами ДНК соответствующего цвета, а регуляторные взаимодействия показаны как тонкие стрелки. Из экспериментальных работ было известно, что у кишечной палочки (А) основным фактором является FNR, который регулирует свой собственный ген fnr, а также гены, кодирующие другие регуляторы (arcA и narXL). Оказалось, что у пастерелл (Б) факторы FNR и NаrP образуют петлю (регулируют гены друг друга) и, кроме того, ген fnr регулируется факторами FNR (авторегуляторная петля) и ArcA. У вибрионов (В) обнаружена авторегуляция генов fnr и narP, а ArcA регулирует оба этих гена и, по-видимому, является основным регулятором.


Top