Это интересный вопрос, ответ на который должен был дать проект «Геном человека», завершившийся в 2003 году. После того как ученые получили основную информацию о геноме человека, они попытались определить число генов, но эта задача оказалось не такой простой. Цель настоящей статьи — суммировать и проанализировать научные данные по составлению каталога генов у человека.
Как же мало известно о генах! Первый раз я остро ощутила это, находясь на практике в лаборатории медицинской генетики Харбинского медицинского университета. Исследовательская группа, где я проходила стажировку, занималась изучением онкогена Sei-1, который индуцирует образование двухминутных хромосом (DM), что способствует развитию онкогенеза. Однако механизм образования онкогена Sei-1 остается неизвестным до сих пор. А ведь различные мутации генов являются причиной возникновения и других опасных заболеваний человека, помимо рака. Итак, в данной статье мы изложим некоторые соображения о том, почему мы все еще многое не знаем о генах, а также сформулируем наше мнение о том, сколько генов у человека.
В 1977 году Фредерик Сэнгер впервые разработал метод секвенирования ДНК, основанный на терминации ДНК-полимеразной реакции с помощью дидезоксинуклеотидов, за что в 1980 году был удостоен Нобелевской премии в области химии. В этом же году Нобелевскую премию получили Максам и Гилберт, которые предложили метод секвенирования ДНК путем химической деградации. В 1985 году была выявлена первая полная последовательность ДНК бактерии (Haemopbilisinfluenza), в 1996 году получен первый геном эукариотической клетки (дрожжи Saccharomycesceravisiae), а в 1998 году расшифрован геном дождевого червя (Caenorhabditiselegans). Завершение в 2003 году проекта «Геном человека» привело к публикации полной последовательности человеческого генома. Но «полной» ее можно назвать весьма условно, учитывая, что около 8% не секвенировано и по сей день.
Проект «Геном человека» и полный список генов
Выявление полного списка генов необходимо для выяснения молекулярных механизмов возникновения и развития рака, шизофрении, деменции, а также многих других заболеваний человека. Секвенирование ДНК, выделенной из тканей больных, позволяет выявлять такие мутации, как нуклеотидные замены, делеции и вставки, ответственные за возникновение этих заболеваний.
Рисунок 1. Арт-проект на выставке «Геном — расшифровка кода жизни» в Национальном музее естественной истории в Вашингтоне
Собственно, ради этого и затевался проект «Геном человека» (Human genome project, HGP), который продолжался с 1990 по 2003 год. Его основной задачей было определение нуклеотидной последовательности ДНК человека и локализации 100 000 человеческих генов (как тогда полагали). Параллельно с этим планировалось изучить ДНК набора модельных организмов, чтобы получить сравнительную информацию, необходимую для понимания функционирования генома человека. Предполагалось, что информация, полученная в результате HGP, станет настольной книгой для биомедицинской науки в XXI веке. Целями данных исследований являлось получение информации о причинах ряда болезней и, в конечном итоге, разработка способов лечения более чем 4000 генетических заболеваний, которые затрагивают человечество, включая многофакторные, в которых генетическая предрасположенность играет важную роль. Считалось, что результаты секвенирования генома позволят определить локализацию каждого гена и их общее количество. Однако последовавшие за этим события доказали обратное: сегодня существует несколько баз данных генов, которые существенно отличаются друг от друга. Причем число белок-кодирующих генов совпадает, а число генов других типов расходится.
Немного о РНК
Проект «Геном человека» показал, что молекулы РНК так же важны для жизни, как и ДНК. Внутри клеток существует множество РНК (рис. 2). Изначально РНК подразделяются на некодирующие РНК (нкРНК), которые не транслируются в белки, и кодирующие РНК (мРНК), служащие матрицей для синтеза полипептидных цепей белка. Некодирующие РНК имеют более сложную классификацию. Они бывают инфраструктурными и регуляторными. Инфраструктурные РНК представлены рибосомными РНК (рРНК) и транспортными РНК (тРНК). Молекулы рРНК синтезируются в ядрышке и составляют основу рибосомы, а также кодируют белки субъединиц рибосомы. После того, как рРНК полностью собраны, они переходят в цитоплазму, где в качестве ключевых регуляторов трансляции, участвуют в чтении кода мРНК. Последовательность из трех азотистых оснований в мРНК указывает на включение определенной аминокислоты в последовательность белка. Молекулы тРНК, приносят указанные аминокислоты на рибосомы, где синтезируется белок.
Рисунок 2. Виды РНК
Регуляторные нкРНК очень широко представлены в организме, классифицируются в зависимости от размера и выполняют ряд важных функций (табл. 1).
Таблица 1. Некодирующие регуляторные РНК
Проблема терминологии
Прежде чем ответить на вопрос: «Сколько у нас генов?», нужно понять, что же такое ген?
Основное внимание HGP было направлено на белок-кодирующие гены. Однако, как было указано в первоначальном докладе HGP в 2001 году, «тысячи генов человека продуцируют некодирующие РНК (нкРНК), являющиеся их конечным продуктом», хотя на тот момент было известно около 706 генов нкРНК. В своей недавней статье, опубликованной в журнале BMC Biology Стивен Зальцберг (Steven L. Salzberg) дает следующее определение гена:
ГЕН - любой участок хромосомной ДНК, который транскрибируется в функциональную молекулу РНК или сначала транскрибируется в РНК, а затем транслируется в функциональный белок.
Это определение включает как гены некодирующих РНК, так и белок-кодирующие гены, и позволяет определять все варианты альтернативного сплайсинга в одном локусе как варианты одного и того же гена. Это позволяет исключить псевдогены – нефункциональные остатки структурных генов, утратившие способность кодировать белок.
Результаты двух первых исследований свидетельствовали о наличии у человека 31 000 и 26 588 белок-кодирующих генов, а в 2004 появилась полная последовательность генома человека, и авторы подсчитали, что полный каталог насчитывает 24 000 белок-кодирующих генов. Каталог человеческих генов Ensembl включает 22 287 белок-кодирующих генов и 34 214 транскриптов.
Секвенирование нового поколения (NGS)
Появление высокопроизводительных методов параллельного секвенирования (в ходе такого секвенирования миллионы фрагментов ДНК из одного образца секвенируются одновременно) или секвенирования нового (следующего) поколения (next-generation sequencing, NGS) позволило значительно ускорить поиск функциональных участков генома. Биотехнологические компании разработали и коммерциализировали различные платформы для NG-секвенирования, позволяющие секвенировать от 1 млн до десятков млрд коротких последовательностей (ридов, reads) длиной 50–600 нуклеотидов каждая. К наиболее популярным платформам относятся такие, как Illumina и IonTorrent, использующие амплификацию ДНК с помощью ПЦР, а также платформы одномолекулярного секвенирования, такие как Helicos Biosciences Heli Scope, Pacific Biosciences SMRT (single molecule real-time sequencing), и нанопорового секвенирования, осуществляющие секвенирование в реальном времени и позволяющие прочитывать значительно более длинные риды — до 10–60 тыс. нуклеотидов. Кроме того, изобретение секвенирования РНК (RNA-seq) в 2008 году, которое создавалось для количественного определения экспрессии генов, также способствовало обнаружению транскрибируемых последовательностей, как кодирующих, так и некодирующих РНК.
Благодаря NGS, базы данных днкРНК и других генов РНК (таких как микро-РНК) резко выросли за десятилетие, и текущие каталоги генов человека теперь содержат больше генов, кодирующих РНК, чем белки (табл. 2).
Таблица 2. Количество разных типов генов в следующих базах данных: Gencode, Ensembl, RefSeq, CHESS
Типы генов |
||||
Белок-кодирующие гены |
19 901 |
20 376 |
20 345 |
21 306 |
Гены длинных некодирующих РНК |
15 779 |
14 720 |
17 712 |
18 484 |
Антисмысловые РНК |
5501 |
— |
28 |
2694 |
Другие некодирующие РНК |
2213 |
2222 |
13 899 |
4347 |
Псевдогены |
14 723 |
1740 |
15 952 |
— |
Общее число транскриптов |
203 835 |
203 903 |
154 484 |
323 827 |
Рисунок 3. Последовательность ДНК, получаемая после секвенирования человеческого генома
В ходе секвенирования РНК обнаружилось, что альтернативный сплайсинг, альтернативное инициирование транскрипции и альтернативное прерывание транскрипции проиcходят гораздо чаще, чем полагали, затрагивая до 95% человеческих генов. Следовательно, даже если известно местоположение всех генов, сначала нужно выявить все изоформы этих генов, а также определить, выполняют ли эти изоформы какие-либо функции или они просто представляют собой ошибки сплайсинга.
Базы данных генов человека
Задача по составлению каталога всех генов по-прежнему не решена. Проблема заключается в том, что за последние 15 лет только две исследовательские группы составили список доминантных генов: RefSeq, которая поддерживается Национальным центром биотехнологической информации (NCBI) в Национальном институте здоровья (NIH), и Ensembl/Gencode, которая поддерживается Европейской молекулярно-биологической лабораторией (EMBL). Однако, несмотря на большой прогресс, сейчас в каталогах различается количество белок-колирующих генов, генов длинных некодирующих РНК, псевдогенов, а также варьирует количество антисмысловых РНК и других некодирующих РНК (табл. 2). Каталоги еще дорабатываются: например, в прошлом году сотни генов, кодирующих белок, были добавлены или удалены из списка Gencode. Эти разногласия объясняют проблему создания полного каталога человеческих генов.
В 2017 году была создана новая база данных генов человека — CHESS. Примечательно, что она включает все белок-кодирующие гены как Gencode, так и RefSeq, так что пользователям CHESS не нужно решать, какую базу данных они предпочитают. Бóльшее количество генов может вызывать больше ошибок, но создатели считают, что бóльший набор окажется полезным при исследовании болезней человека, которые еще не отнесены к генетическим. Набор генов CHESS в настоящее время в версии 2.0 еще не окончательный, и, безусловно, создатели работают над его усовершенствованием.
Таким образом, все еще неизвестно, сколько всего генов у человека. Существует ряд проблем, затрудняющих эту задачу. Например, многие гены (особенно, гены днкРНК), видимо, имеют высокую тканеспецифичность. Из этого следует, что пока ученые подробно не исследуют все типы клеток человека, они не могут быть уверены, что обнаружили все человеческие гены и транскрипты. Безусловно, сегодня знания о человеческих генах стали значительно обширнее, чем в начале проекта «Геном человека», а технологии совершеннее. Это дает надежду на то, что в скором времени мы узнаем точный ответ на поставленный вопрос.
Источник: БИОМОЛЕКУЛА