Повторяющиеся элементы обильно распределены в геномах млекопитающих. Учёные обнаружили поразительную связь между типами мобильных генетических элементов находящегося поблизости гена и той ролью которую он играет в развитии организма. SINE, L1 и повторы низкой сложности разграничивают различные функциональные категории генов и могут диктовать время и уровень экспрессии генов, предоставляя сайты связывания для различных регуляторных белков. Важно отметить, что анализ изображений и секвенирования показывает, что повторы L1 секвестируют большой набор генов со специализированными функциями в неактивных доменах, связанных с ядрышком (Nucleus) и ядерной ламиной (НАДы и ЛАДы, NAD & LAD), которые лишены повторов SINE. Кроме того, транскрипты L1 активно связываются с ДНК L1 в эмбриональных стволовых клетках (ESC) через вспомогательные белки. Истощение РНК L1 в ЭСК приводит к перемещению хромосомных сегментов, обогащенных L1, из неактивных доменов во внутреннюю часть ядра и дерепрессии генов, связанных с L1. Эти результаты демонстрируют роль ДНК и РНК L1 в молчании генов и предполагают роль мобильных генетических элементов и тандемных повторов в управлении функцией, регуляцией и экспрессией их хозяйских генов. Полностью статью в Cell можно скачать здесь.
SINE, L1 и повторы низкой сложности - управляют генами с различными функциями:
SINE – генами домашнего хозяйства.
L1 – специализированными генами
Повторы низкой сложности (тандемные повторы) – генами связанными с развитием эмбриона
Геномные повторы определяют время и уровень экспрессии генов во время развития
L1-обогащенные гены изолированны в неактивных доменах NAD/LAD для сайленсинга
РНК L1 способствует ядерной локализации и репрессии генов, обогащенных L1
Барбара Мак-Клинток разработала метод визуализации хромосом клеток кукурузы и, применив микроскопический анализ, сделала множество фундаментальных открытий в цитогенетике, в их числе рекомбинация наследственной информации в результате кроссинговера («перекреста» и обмена участками хромосом) во время мейоза. Она составила первую генетическую карту кукурузы, описав физические свойства участков хромосом, показала роль теломер и центромер (участков хромосом, задействованных в сохранении генетической информации), провела обширные исследования по цитогенетике и этноботанике южноамериканских видов кукурузы, разработала теорию, объясняющую репрессию и экспрессию генетической информации при передаче от одного поколения к другому на примере кукурузы.
Рис 1. Барбара Мак-Клинток в лаборатории, 1947 г.
В 1948-1950 годах Мак-Клинток разрабатывала теорию, согласно которой мобильные элементы влияют на гены, селективно ингибируя и регулируя их активность. Она охарактеризовала диссоциатор и активатор как «контролирующие единицы», а позже как «контролирующие элементы», чтобы подчеркнуть их свойство влиять на работу соседних генов. Она предположила, что генная регуляция может объяснить, почему в сложных многоклеточных организмах образуются различные клетки и ткани, несмотря на то, что все клетки обладают идентичным геномом. Открытие Мак-Клинток поставило под сомнение представление о геноме как о статичном наборе правил, передающихся из поколения в поколение. В 1950 году она опубликовала свою работу об активаторах и диссоциаторах.
Работы Мак-Клинток по исследованию контролирующих элементов и генной регуляции в силу их сложности не сразу были осмыслены и приняты современниками. Научные изыскания воспринимались, по её словам, как «загадочные, даже враждебные». Летом 1951 года Мак-Клинток доложила об исследовании изменчивости генов на ежегодном симпозиуме в Колд Спринг Харбор. Её работа была встречена «каменным молчанием». Несмотря на это, Мак-Клинток продолжила проведение исследований контролирующих элементов. В 1953 году она опубликовала статью, где представила полученные статистические данные, и в 1950-х годах провела лекционный тур в нескольких университетах, посвящённый её работе. Она продолжила исследования в этой области и обнаружила новый элемент Супрессор-мутатор (англ. Suppressor-mutator, Spm), охарактеризованный как траспозон и обладающий сложными свойствами, так же как и комплекс Ac/Ds (система «ассоциация — диссоциация»). Основываясь на отношении научного сообщества к её работам и чувствуя опасность отчуждения от научного мейнстрима, с 1953 года Мак-Клинток перестала публиковать отчёты об исследованиях контролирующих элементов. В 1983 году Мак-Клинток была удостоена Нобелевской премии по физиологии и медицине с формулировкой «За открытие мобильных генетических элементов».
Повторяющиеся последовательности как, содержащие перемещаемые элементы и простые повторы, составляют до 45% генома у мыши и 50–70% у человека. Коме того около четверти генома представляют из себя пиРНК, которые подавляют активность контролирующих элементов, как в оригинале называла их автор. И вот сейчас группа ученых из разных стран спустя 70 лет после открытия Мак-Клинток, разобралась в молекулярных механизмах работы контролирующих элементов, многие десятилетия незаслуженно называемых генетическим мусором. Статья опубликована в журнале Cell.
На основе механизмов транспозиции транспонируемые элементы можно разделить на ДНК-транспозоны и ретротранспозоны. Последние преобладают у большинства млекопитающих и могут быть далее разделены на транспозоны эндогенных ретровирусов (ERV), содержащие длинный концевой повтор (LTR), и транспозоны не LTR (включая короткие вкрапленные ядерные элементы [SINEs] и длинные вкрапленные ядерные элементы [LINEs]) , Наиболее распространенный подкласс SINE включает специфичные для приматов элементы Alu у человека и близкородственные повторы B1 у мышей, длина которых примерно 300 пн и которые в изобилии присутствуют в богатой GC ДНК. Мыши и люди имеют до 0,6 млн и 1,4 млн. Копий этих повторов соответственно, что составляет около 2,7% или 10,6% геномной ДНК. Длинный диспергированный элемент-1 (LINE1 или L1), длина которого составляет 6–7 т.п.н. и содержит много ДНК, обогащенной AT, составляет 19% и 17% (от 0,9 млн. До 1,0 млн. Копий) генома у мыши и человека, соответственно и составляют наибольшую долю перемещаемых элементов, полученных из последовательностей.
Повторяющиеся элементы когда-то считались нежелательной или «паразитической» ДНК, но все больше доказательств постепенно пересматривали и расширяли наше понимание геномных повторов и того, как они влияют на геномы млекопитающих. Геномные повторы могут влиять на экспрессию генов хозяина как на транскрипционном, так и на посттранскрипционном уровнях посредством цис- и транс-механизмов и участвовать в регуляции разнообразных биологических и патологических процессов. Например, короткие тандемные повторы способствуют изменениям экспрессии генов и генетической архитектуре количественных человеческих признаков. ERV1 и HERVH содержат сайты связывания ДНК с факторами транскрипции POU5F1, NANOG и STAT1 и участвуют в плюрипотентности стволовых клеток и врожденном иммунитете. Повторы SINE несут новые сайты связывания для CTCF и могут служить в качестве граничных элементов, влияющих на структуру и транскрипцию хроматина. Повторы L1 регулируют глобальную доступность хроматина в начале развития, и эмбрионы задерживаются на двухклеточной стадии, если подавлена активность транскриптов L1. В мышиных эмбриональных стволовых клетках (ESCs) РНК L1 способствует связыванию нуклеолина (NCL) и белка-1, ассоциированного с ядерным корепрессором KRAB (KAP1 или TRIM28), с рибосомной ДНК (рДНК) и локусами гена DUX для стимуляции транскрипции рРНК или репрессируют транскрипционную программу, специфичную для двухклеточного эмбриона, соответственно. Поскольку нокаут DUX вызывает незначительные дефекты в активации зиготического генома (ZGA) и совместим с развитием мыши, мы предполагаем, что роль L1-повторов превышает регуляцию гена DUX.
Несмотря на эти первоначальные результаты, наши современные знания о том, как повторяющиеся последовательности формируют структуру и функцию генома, все еще ограничены. Степень, в которой функция геномных повторов может быть обобщена независимо от биологического контекста, плохо изучена. Разъяснение ролей отдельных повторных подсемейств в регуляции генов все еще отсутствует. Здесь мы провели всесторонний и количественный анализ различных подклассов повторов в геномах мыши и человека и выявили поразительную связь генных повторов с функцией, регуляцией и экспрессией их генов-хозяев. Важно отметить, что мы демонстрируем ключевую роль РНК L1 в передаче информации о ДНК L1 и секвестрации большого набора генов, которые специализируются на функциях, связанных с терминально дифференцированными клетками, в гетерохроматических ядрышковых и ядерных перифериях для транскрипционного сайленсинга в ESC. Эти результаты раскрывают общую тему повторных последовательностей в формировании регуляторных сетей генов в геноме их хозяина.
Неслучайное распределение повторяющихся элементов
Мы исследовали геномы мыши и человека и обнаружили, что значительная часть (примерно 21% -73%) отдельных подклассов повторов находится рядом с геном, который часто содержит несколько подклассов повторов с разной частотой. Более 72% повторов B1 / Alu и 42% -59% L1 расположены в пределах ± 10 кБ гена у человека и мыши и 59% B1 / Alu и 32% -48% L1 в пределах ± 2 кБ от гена (фигуры 1A, S1A и S1B). В примере четырех генов, кодирующих белки RPS15 (рибосомный белок), OLFR441 (обонятельный рецептор), FGF5 (фактор транскрипции) и ZFP72 (белок цинкового пальца), они имеют резко отличающиеся повторяющиеся составы (рис. 1В), Хотя все они содержат SINE в своих промоторах, ясно, что эти четыре гена, несущие меньшее количество или набор элементов SINE, принадлежат к разным функциональным категориям. Это наблюдение свидетельствует о том, что простое определение гена как «повторяющего, содержащего» затмило бы потенциальные регуляторные различия, которые присваиваются различными повторными подклассами.
График тепловых карт содержания повторов в генных областях (± 2 т.п.н. гена) выявил дифференциальные распределения различных повторов в геномах мыши и человека (Рисунки 1C, S1C и S1D). Во-первых, SINE сильно обогащены генами мРНК по сравнению с длинными некодирующими РНК (lncRNAs) в регуляторных областях, включая «промотор», «интрон» и «вниз по течению» (выделено розовой рамкой). Во-вторых, L1, по-видимому, более обогащен фоном генома, чем генные области. В-третьих, lncRNAs имеют более высокое содержание ERV в экзонах и нижележащих областях по сравнению с генами мРНК (выделено оранжевой рамкой), что согласуется с предыдущим отчетом. В-четвертых, простые повторы с низкой сложностью сильно обогащены промоторами генов мРНК и lncRNA, а последовательности с низкой сложностью также обогащены в 50 UTR мРНК (выделено зеленым прямоугольником). В-пятых, спутниковые повторы являются единственным повторным подклассом, который сильно обогащен CDS мышиных мРНК. Эти наблюдения указывают на неслучайное распределение генных повторов в геномах мыши и человека и предполагают потенциальную связь между особенностями повторов и функциями генов хозяина, содержащих повторы.
Генные повторы категоризируют функции генов
Для дальнейшего изучения того, как состав и распределение повторов связаны с функцией генов, мы рассчитали содержание ДНК для каждого из 14 повторных подклассов, которые делятся на шесть областей гена для 22,432 кодирующих белок генов у мышей (рис. S2). Гены, которые были сгруппированы по повторяющимся признакам, более вероятно, будут обогащены определенными функциями, чем случайные группы (Рисунки 1D и S1D). Иерархическая кластеризация выявила четыре видных кластера генов, которые имеют различные повторяющиеся подтипы (Рис. 1E и S3A): (1) набор из 2041 гена, который обогащен повторами SINE (B1, B2 и B4) в регуляторных областях (обозначен как '' SINE-обогащенные гены ''); (2) набор из 1480 генов, обогащенных L1 в регуляторных областях (обозначен как «L1-обогащенные гены»); (3) набор из 2439 генов, обогащенных последовательностями с низкой сложностью в промоторах, 50 UTR и областях CDS и обогащенных простыми повторами в 50 UTR и CDS (обозначены как «повторяющиеся гены низкой сложности»); и (4) набор из 383 генов, обогащенных спутниковыми повторами в областях CDS и 30 областей UTR (обозначенных как «спутниковые повторные гены») (Таблица S1).
Интересно, что анализ генной онтологии показал, что эти четыре функциональных термина обогащены различными функциональными терминами (Рисунки 1F и S3B). Обогащенные SINE гены значительно обогащены функциями «домашнего хозяйства», связанными с РНК, включая связывание и процессинг рибосом, трансляции, ядрышка и РНК. Напротив, L1-обогащенные гены сильно обогащены специализированными функциями, включая обонятельные, вомероназальные и феромонные рецепторные функции, иммуноглобулиновую функцию и метаболизм ретинола, которые, как правило, экспрессируются в терминально дифференцированных клетках. Для сравнения, гены низкой сложности с повторным обогащением высоко обогащены в регуляции транскрипции и процессах развития. Известно, что факторы развития и тканеспецифические транскрипционные факторы имеют в своем составе промоторы CpG-островков или GC-богатых последовательностей низкой сложности. Примечательно, что гены, обогащенные спутниковыми повторами, в основном кодируют KRAB-содержащие и транскрипционные факторы цинкового пальца, которые участвуют в подавлении вновь появившихся ретротранспозонов. Положение сателлитных повторов в этих генах в значительной степени перекрывается с последовательностями ДНК, которые кодируют домен цинкового пальца (Рисунки S3C и S3D), подразумевая, что эндогенные сателлитные повторы могли эволюционировать для защиты экзогенных повторяющихся элементов, таких как ретротранспозон.
Интересно, что анализ генной онтологии (GO) показал, четыре типа генов по их функциональным группам соотносится с четырьмя типами повторяющимися последовательностями. Обогащенные SINE гены значительно обогащены функциями «домашнего хозяйства», связанными с РНК, включая связывание и процессинг рибосом, трансляции, ядрышка и РНК. Напротив, L1-обогащенные гены сильно обогащены специализированными функциями, включая обонятельные, вомероназальные и феромонные рецепторные функции, иммуноглобулиновую функцию и метаболизм ретинола, которые, как правило, экспрессируются в терминально дифференцированных клетках. Для сравнения, гены обогащённые повторами низкой сложности участвуют в регуляции транскрипции и процессах развития. Известно, что факторы развития и тканеспецифические транскрипционные факторы имеют в своем составе промоторы CpG-островков или GC-богатых последовательностей низкой сложности. Примечательно, что гены, обогащенные спутниковыми повторами, в основном кодируют KRAB-содержащие и транскрипционные факторы цинкового пальца, которые участвуют в подавлении вновь появившихся ретротранспозонов. Положение сателлитных повторов в этих генах в значительной степени перекрывается с последовательностями ДНК, которые кодируют домен цинкового пальца (Рисунки S3C и S3D), подразумевая, что эндогенные сателлитные повторы могли эволюционировать для защиты экзогенных повторяющихся элементов, таких как ретротранспозон.
Рисунок 2. Модель, изображающая три аспекта повторяющихся элементов в классификации генов с различными функциями для организованной регуляции и экспрессии. Во-первых, повторы SINE, L1 и низкой сложности классифицируют гены с различными функциями, которые связаны с различными уровнями активности транскрипции (левая панель). Во-вторых, повторы SINE и L1 изолируют свои обогащенные гены в разных активных и неактивных ядерных доменах для скоординированной активации или молчания соответственно (правая панель). В частности, РНК L1 связывает ДНК L1, чтобы облегчить ее функцию в молчании генов, обогащенных L1, которые связаны с неактивными NAD и LAD на периферии ядрышка и ядра. В-третьих, временная активация повторов и обогащенных повторами генов в процессе развития и дифференцировки (нижняя панель). После оплодотворения и до стадии бластоцисты повторы SINE, и гены домашнего хозяйства, связанные с процессингом РНК, биогенезом рибосом и функцией ядрышка, сильно экспрессируются. Когда плюрипотентные клетки в ICM бластоцисты или в культивируемых ESCs дифференцируются в три эмбриональных зародышевых слоя, гены обогащённые повторами низкой сложности, которые обычно кодируют транскрипционные факторы развития, имеют высокую экспрессию. В терминально дифференцированных клетках L1-обогащенные гены становятся активированными. Мы предлагаем, чтобы геномные повторы формировали регуляторные сети транскрипции для достижения организованной активации или сайленсинга генов с различными функциями на определенных стадиях. Уровни активации показаны как степень цветовой темноты.
Влияние колонизации генома повторами на организацию и регуляцию генов млекопитающих остается предметом спекуляций и противоречий. Учитывая широко распространенную и разнообразную природу повторов, рассмотрение их как совокупного класса без определения их подтипов и содержания приведет к недооценке их потенциальных регуляторных различий и функций. В этом исследовании наш количественный и систематический обзор повторных композиций для каждого гена в геноме выявил обширные ассоциации повторов с функцией, регуляцией и экспрессией их генов-хозяев. В частности, SINE, L1 и повторы с низкой сложностью разграничивают свои ассоциированные гены на три основные функциональные категории, которые дифференциально экспрессируются на разных стадиях развития, вероятно, путем набора различных наборов регуляторов в их геномные последовательности и / или секвестрации их ассоциированных генов в разные ядерные домены (Рисунок 7). Комбинирующие эффекты белкового нацеливания и ядерной секвестрации координируют экспрессию генов в генах, содержащих похожие повторы, а также определяют разные уровни активности генов в разных повторных подклассах. Гены, обогащенные SINE, с большей вероятностью кодируют вспомогательные белки, связанные с процессингом РНК, рибосомным биогенезом и нуклеолярной функцией; Эти гены показывают обогащение сайтов связывания для факторов, вовлеченных в активную транскрипцию, и они сначала активируются во время ZGA и высоко экспрессируются в ESCs. Гены, обогащенные L1, имеют тенденцию продуцировать белки со специализированными функциями в терминально дифференцированных клетках; они преимущественно являются мишенями для гетерохроматиновых белков и эпигенетических репрессоров и изолируются в репрессивных ядерных доменах для сайленсинга генов в ESCs. Гены имеющие рядом повторы низкой сложности имеют тенденцию кодировать транскрипционные факторы развития и тканеспецифичные факторы, которые PRC2 преимущественно направляет на транскрипционную уравновешенность. Динамическое и оркестрированное открытие хроматина последовательностей SINE- и повторов, связанных с низкой сложностью, и последовательная активация связанных с ними генов в раннем эмбриональном развитии, дополнительно подтверждают роль генных повторов в динамических регуляторных сетях транскрипции для достижения специфической для стадии активации или молчания генов с различными функциями.
Несмотря на резкие различия в распределении L1 и Alu / B1 в геноме, они оба зависят от обратной транскриптазы, кодируемой ORF L1, для ретротранспозиции и имеют общую специфичность AT-богатого сайта вставки во время интеграции. Два недавних исследования вставок ретротранспозона L1 в культивируемых клетках показали, что ландшафт эндогенных элементов L1 значительно отличается от ландшафта новых вставок, которые, по-видимому, широко нацелены на все области человеческого генома, будучи нечувствительными к состоянию хроматина. Предполагается, что очистительный отбор, а не смещенные вставки, изменяет геномное распределение L1 и Alu после их интеграции. Мы предполагаем, что специфическая ассоциация семейств генов и повторов настолько важна, что в ходе эволюции она оказала избирательное давление на разные классы повторов, чтобы они накапливались в определенных наборах генов, изображая соадаптивные траектории перемещаемых элементов с их хозяином. Несмотря на детектируемую экспрессию белка L1 ORF1 в ESCs, лечение антиретровирусными препаратами, которые ингибируют ретротранспозицию L1, не проявляло эффекты истощения РНК L1. Ингибирование ретротранспозиции L1 также не помогло продлить развитие двухклеточного эмбриона и аберрантной доступности хроматина из-за длительной активации L1. Эти сообщения предполагают, что функциональная роль L1 в регуляции гена и хроматина, вероятно, не зависит от его ретротранспозиционной активности.
Визуальный анализ и секвенирование ДНК ESCs иллюстрируют заметный эффект пространственной ядерной сегрегации повторов L1 и B1 в секвестрации их ассоциированных генов в отдельных ядерных компартментах. Преобладающая локализация L1-повторов и L1-ассоциированных генов в NAD и LADs, которые лишены B1, вероятно, вносит большой вклад в геномное молчание L1-ассоциированных генов. Это мнение подтверждается результатами, которые показали, что истощение РНК L1 в ESCs привело к отрыву ДНК с повтором L1 от NAD и LAD и глобальному активированию L1-ассоциированных генов. В терминально дифференцированных про-В клетках или сенсорных нейронах, активация L1-ассоциированных иммуноглобулиновых или обонятельных генов, соответственно, сопровождается их перемещением с периферии ядра во внутреннее пространство ядра. Сообщалось, что снижение уровней белков семейства HP1, содержания H3K9me3 и гетерохроматина, рецидивирующая ретротранспозиция L1 и аномальная экспрессия иммуноглобулина в нелимфоидных неопластических клетках коррелируют с раком человека. Эти данные указывают на то, что динамическая регуляция ядерного позиционирования богатой L1 ДНК и ассоциированных генов посредством эпигенетических и транскрипционных механизмов имеет решающее значение для правильной экспрессии генов и клеточной функции. Учитывая важную роль РНК L1 в регуляции ядерной локализации и репрессии генов, ассоциированных с L1, и учитывая короткий период полураспада и обширное связывание РНК L1 с ее последовательностями ДНК, мы предполагаем, что транскрипты L1 могут действовать в хроматиновых окрестностях их транскрипционных сайтов, для прикрепления L1-богатых геномных сегментов к ядерной и ядрышковой периферии, частично через L1-взаимодействующих белковых партнеров. Таким образом, РНК L1 осуществляет транскрипцию репрессивной и структурной информации, закодированной в повторах ДНК L1, способствуя макроскопической структуре и регуляции генома хозяина.
Таким образом, отдельные повторные подклассы наделяют геном сотнями тысяч сходных последовательностей, что может обеспечить эффективный и мощный способ координации разнообразных геномных последовательностей в одну регуляторную сеть. По аналогии со сложными смесями микроорганизмов, которые, как полагают, совместно эволюционировали со своими человеческими хозяевами, мобильные генетические элементы, другой стабильно внедренный «паразит», сильно определили, сформировали и повлияли на геномы их хозяев. А возможно и были причиной появления многоклеточной жизни вообще, вернее причиной появления дифференцировки на различные специфические слои ткани и органы.