Как наследуются заболевания и какими бывают мутации – сложные темы. Но без понимания, что такое аллель и где именно образуются поломки в генах не обойтись, если вы хотите анализировать результаты секвенирования. Эта теория тесно связана с практикой.
Содержание статьи
Что и как секвенируют?
ДНК для секвенирования выделяют из биологических материалов, которые мы отправляем в лабораторию. Это может быть щеточка с буккальным соскобом ребенка (эпителий с внутренней стороны щеки), кровь в пробирке или кровь, высушенная на фильтровальной бумаге (для удобства почтовой пересылки).
Если выделенной ДНК окажется достаточно и она пройдет контроль качества, то вам могут сообщить, что ваш образец принят. Далее он ждет своей очереди, чтобы с десятками других пройти секвенирование. Чем больше образцов обрабатывают одновременно и чем дольше продолжается секвенирование, тем дешевле его себестоимость.
Так что же конкретно читает секвенатор?
Представим, что наш генетический код (генотип) – это чертежи, записанные четырехбуквенным языком. По этим чертежам внутри клеток из аминокислот собираются белки. А с белками прямо или косвенно связаны все процессы в нашем организме.
Информация чертежей закодирована лишь четырьмя буквами A, T, G, C, точнее, молекулами из которых состоит ДНК. Но и четырех букв вполне достаточно.
Чтобы лучше понимать, что такое ДНК, рекомендую посмотреть это видео.
Технология секвенирования – это автоматическое чтение под микроскопом последовательности молекул A, T, G или C, помеченных так, чтобы они стали отличимыми друг от друга.
Сначала ДНК режется на множество отрезков. Их длина достаточна для того, чтобы не перепутать между собой. Затем каждый из этих отрезков копируется множество раз. Чтение происходит параллельно для многих копий отрезка сразу с двух сторон. Благодаря такому масштабированию и одновременности секвентатор может быстро прочитать геном или экзом. Многократное дублирование позволяет снизить вероятность ошибок.
Если вы хотите поглубже познакомиться с технологией секвенирования Illumina, рекомендую посмотреть это видео на английском языке.
После секвенирования компьютер находит место прочитанных отрезков относительно эталонного генома, то есть «выравнивает» фрагменты. Прочтения могут накладываются друг на друга, поэтому у каждой конкретной молекулы ДНК будет свое количество прочтений, которое называется «покрытие».
В этом определении нет устоявшегося термина и могут быть разные переводы с английского. Слова «покрытие», «глубина прочтения», «охват», «глубина секвенирования» могут означать одно и то же. Например, в следующих главах покрытие для конкретного нуклеотида будет обозначаться DP (DePth).
Среднее число прочитанных молекул участка (локуса), экзома или генома – называется «среднее покрытие».
Поскольку процесс чтения – случайный, всегда найдутся участки с настолько низким DP, что будут отброшены при контроле качества. Если речь идет о постановке диагноза, то таких «некачественных» прочтений, особенно в кодирующей части ДНК, должно быть немного и требования к среднему покрытию, соответственно, растут. Среднее покрытие экзома или генома определяет себестоимость и конечную цену секвенирования.
Как правило, если секвенируют целый геном, то приемлемым считают покрытие выше х20. Это означает, что каждый участок ДНК был в среднем прочитан не менее 20 раз. Экзом составляет около 2% от генома и ему можно уделить, по крайней мере, втрое больше внимания – здесь приемлемым будет покрытие x75 и более.
Дождавшись результатов секвенирования, вы получите флешку, внешний жесткий диск или email со ссылками на медицинский отчет и файлы с данными секвенирования. Оптимальным будет, если вы получите FASTQ файлы, BAM (или SAM) файл, VCF-файл и pdf-отчеты. Все их желательно сохранить у себя.
Что это за файлы?
1) Исходный материал – это большой по размеру многотомный архив с FASTQ файлами, которые содержат, по сути, сырые и неупорядоченные данные секвенирования. Для экзома их размер будет составлять около 10GB. Эти файлы важны тем, что на их основе можно будет создавать новые отчеты со свежими уточнениями. Также по этим файлам можно достоверно оценивать качество секвенирования.
2) BAM-файл или SAM-файл с выровненными относительно эталонного генома данными. То есть, с уже упорядоченной информацией о ДНК, которую можно просматривать с помощью специальных ДНК-броузеров.
3) Самое интересное для клинического анализа – это выявление различий между геномом пациента и эталонным геномом человека (variant calling). Выявленные различия записывают в сравнительно небольшой VCF-файл. С помощью специальных программ его анализируют для выявления нарушений.
Аллели и наследственные менделевские заболевания
Считается, что ДНК двух людей идентичны на 99.9% и лишь 0.1% отличий определяет разницу между нами. Но самое интересное то, что различие ДНК существует и внутри наших клеток. По сути, в них содержится информация о двух разных людях, то есть две парных хромосомы. Благодаря этому, даже несмотря на множество мутаций у каждого из нас, мы обычно не заболеваем тяжелыми наследственными заболеваниями. Если на одной хромосоме есть дефектный ген, то вторая хромосома продолжает работать как надо. И обычно одного из двух «работников» бывает достаточно, чтобы произвести нужное количество «правильных» белков.
Чтобы лучше понять, как происходит наследование признаков, рекомендую познакомиться с этим видео.
Двое разных людей в наших генах – это, конечно же, мама и папа. После оплодотворения материнские и отцовские хромосомы соединяются и обмениваются различными участками. Перемешивание генов происходит не отдельными молекулами ДНК, а большими блоками, которые обмениваются как единое целое (их называют гаплотипами). В итоге почти все наши гены состоят из двух копий-половинок, унаследованных от обоих родителей (за исключением генов половых хромосом).
Кстати, иногда, варианты генов не наследуются. Под действием внешних факторов могут происходить мутации de novo, то есть вариант гена, которого не было ни у кого из родителей.
Аллели – это различные формы одного и того же гена, расположенные в одинаковой позиции (локусе) хромосомы. Если эти участки совпадают, их называют гомозиготными, если различаются, тогда их называют гетерозиготными.
Если аллели гомозиготные, то белки получаются одинаковые и эффект такого варианта на функцию гена одинаков – тут более-менее все понятно. Но при гетерозиготном варианте, один аллель может подавлять другой во внешних проявлениях. Такие отношения между аллелями называют доминантностью. Доминантный аллель будет проявляться в фенотипе – характеристике человека (цвет волос, непереносимость продукта и т.п.), а рецессивный никак не будет себя проявлять, оставляя играть роль доминантному.
Конечно, степени подавления могут быть разными, например, может быть и смешанный тип, когда свои особенности проявляют оба аллеля.
Вспомним школьный урок биологии про законы Грегора Менделя, рисунки с белыми и красными тюльпанами, а также варианты потомства, которое они дают при различных типах наследования. Следующие поколения тюльпанов при скрещивании могут оставаться красными и белыми, быть промежуточными по окрасу (розовыми) или даже с разными цветами отдельных лепестков.
Так и большинство генетических нарушений – моногенные и имеют понятные закономерности наследования в соответствии с законами Менделя. Поэтому они называются менделевскими заболеваниями.
Отсюда, два основных типа менделевских заболеваний. Оба могут быть предсказаны по законам генетики с определенной вероятностью, если известны варианты генов отца и матери.
Аутосомно-доминантное наследование, при котором болезнь может проявиться в случае, если у человека есть хотя бы один «дефектный» ген, унаследованный от отца или матери.
Если хотя бы у одного из родителей есть соответствующий генетический дефект, то не только у него развивается заболевание, но с вероятностью 50% это заболевание передастся ребенку. Выраженность заболевания будет зависеть от степени доминирования и степени повреждения гена, а она может меняться при передаче. Нарушения у родителя могут быть с очень «смазанными» симптомами (низкая пенетрантность) или проявиться уже в зрелом возрасте. Также аутосомно-доминантное наследование часто связано с мутациями de novo.
Аутосомно-рецессивное наследование, при котором болезнь проявляется только в том случае, если «дефектный» ген был унаследован от обоих родителей. То есть, обе парные хромосомы содержат мутацию на одном и том же участке.
Мы все носим множество редких «дефектных» генов. Но человек, имеющий только одну копию «дефектного» гена (а другую – «нормального» гена), при этом типе наследования является полностью или почти полностью здоровым. Он лишь носитель. Если же оказалось, что оба родителя ребенка являются носителями одной и той же болезни, то с вероятностью 25% ребенок унаследует генетический дефект от обоих родителей, а ни одной нормальной копии соответствующего гена у него не будет. В этом случае развивается заболевание.
Сцепленное с полом наследование связано с непарными половыми хромосомами. Правда непарные (XY) они только у мужчин, а у женщин они парные (XX), как и остальные хромосомы.
Некоторые заболевания передаются только от отца к сыну (когда «плохой» ген находится на мужской Y-хромосоме) или же от матери детям обоего пола (когда вызывающая болезнь мутация происходит на женской Х-хромосоме).
Этот тип заболеваний чаще всего проявляется у мужчин. Ведь, если «плохой» аллель находится на Y-хромосоме, то женщина, в принципе, не может его получить, так как обе половые хромосомы у женщин – это Х-хромосомы. Если болезнь связана с мутацией в женской половой хромосоме, то мужчина, получивший «плохую» хромосому, будет болен (так как у него в геноме нет «здоровой» пары).
У девочки-носителя действие мутантного аллеля обычно маскируется его здоровым напарником, и болезнь проявляется только в том случае, если обе ее Х-хромосомы несут мутацию.
Понятно, что редкое наследственное заболевание означает, что соответствующий аллель мало распространен. Частота аллеля (AF) – ключевой параметр, с которым мы будем работать. Она измеряется в процентах или как число от нуля до единицы. Частота аллеля определяется, как доля всех хромосом в популяции, которые несут эту аллель. Их расчетом занимается популяционная генетика.
Что может поломаться в гене?
Путь от гена до образования белка – это удивительно красивый процесс. Он состоит из двух основных этапов – транскрипции и трансляции, который происходит по цепочке: Ген –> РНК-полимераза –> мРНК (она же иРНК) –> рибосома –> белок.
Образование белка хорошо описано в этих видео [тут и тут].
Наши белки состоят из 20 аминокислот. Каждая аминокислота белка кодируется тремя идущими подряд буквами ДНК. Эта тройка называются триплетом (или кодоном). Подробнее о кодировании на английском можно почитать тут.
Большинство генетических вариаций – это точечные замены одной буквы ДНК на другую. Они называются однонуклеотидный полиморфизм – SNP или SNV (Single nucleotide polymorphism/variant). Но также распространены индели (indel) – это короткие вставки лишних молекул ДНК или наоборот выпадения тех нуклеотидов, которые должны быть (делеции).
Ошибки даже в одной из букв триплета могут привести ко вставке неправильной аминокислоты. А это, в свою очередь, может привести к неправильному образованию белка, когда его функция будет снижена или вообще утрачена.
Иногда SNP становятся причиной тяжелых генетических заболеваний (например, муковисцидоза). Но гораздо чаще точечные изменения безобидны, поэтому их и называют не мутациями, а вариантами.
Более 160 миллионов описанных в медицине и генетике вариантов хранятся в генетической энциклопедии полиморфизмов dbSNP, под уникальными номерами (RefSNP), которые начинаются с префикса rs.
Влияние варианта на функцию белка можно прогнозировать не только на основании клинических баз данных, но и на базе алгоритмов, которые учитывают, какой именно участок гена был изменен.
Но как так сразу можно узнать о серьезности мутации?
Участок ДНК гена состоит из нескольких фрагментов, которые неравнозначны по важности. Первый фрагмент указывает РНК-полимеразе на начало считывания, далее идет область экзонов вместе с интронами, завершающий фрагмент кода указывает на конец гена, то есть, служит командой для прекращения считывания. Повреждения в этих областях будут иметь совершенно различные последствия.
Как будет выглядеть такой анализ на практике?
Когда мы будем делать аннотирование VCF-файла, то инструмент snpEff добавит к каждому варианту множество подписей. Среди них будет столбец ANN[*].IMPACT (Impact prediction), в котором записано одно из четырех значений HIGH, MODERATE, LOW, MODIFIER. За редкими исключениями, с нарушением могут быть связаны варианты HIGH или MODERATE.
Чтобы оценить влияние конкретного варианта, программа ориентируется на таблицу соответствия. То есть, на записи соседнего столбца ANN[*].EFFECT. Сюда алгоритм записывает, какую именно часть или структуру гена затронул вариант.
Таблица соответствия
Влияние ANN[*].IMPACT | Описание | ANN[*].EFFECT |
HIGH | Предполагается, что вариант оказывает сильное (разрушительное) воздействие на белок, вероятно вызывая укорочение белка, потерю функции или запуска нонсенс-опосредованного распада. | chromosome_number_variation exon_loss_variant frameshift_variant rare_amino_acid_variant splice_acceptor_variant splice_donor_variant start_lost stop_gained stop_lost transcript_ablation |
MODERATE | Неразрушающий вариант, который может изменить эффективность белка. | 3_prime_UTR_truncation & exon_loss 5_prime_UTR_truncation & exon_loss_variant coding_sequence_variant conservative_inframe_deletion conservative_inframe_insertion disruptive_inframe_deletion disruptive_inframe_insertion missense_variant regulatory_region_ablation splice_region_variant TFBS_ablation |
LOW | Предполагается, что вариант в основном безвреден или вряд ли изменит поведение белка. | 5_prime_UTR_premature_start_codon_gain_variant initiator_codon_variant splice_region_variant start_retained stop_retained_variant synonymous_variant |
MODIFIER | Обычно некодирующие варианты или варианты, влияющие на некодирующие гены, где предсказания затруднены или нет доказательств воздействия. | 3_prime_UTR_variant 5_prime_UTR_variant coding_sequence_variant conserved_intergenic_variant conserved_intron_variant downstream_gene_variant exon_variant feature_elongation feature_truncation gene_variant intergenic_region intragenic_variant intron_variant mature_miRNA_variant miRNA NMD_transcript_variant non_coding_transcript_exon_variant non_coding_transcript_variant regulatory_region_amplification regulatory_region_variant TF_binding_site_variant TFBS_amplification transcript_amplification transcript_variant upstream_gene_variant |
Повреждения очевидно будут сильными (HIGH), если они связаны с исчезновением целого экзона (exon_loss_variant), нарушению кратности считывания триплета ДНК (frameshift_variant), преждевременной остановке считывания (stop_gained) и прочими серьезными структурными проблемами.
Зато на этапе первичного анализа можно не обращать внимания на строки LOW и MODIFIER. В них, например, записаны SNP в некодирующей области (intron_variant), синонимичные варианты, которые несмотря на замену в ДНК приведут к кодированию одной и той же аминокислоты, а также другие малозначимые изменения.
Например, для описанного выше варианта rs1801131 может быть такая запись.
ANN[*].EFFECT | ANN[*].IMPACT | ANN[*].GENE |
missense_variant, downstream_gene_variant | MODERATE, MODIFIER | MTHFR,C1orf167 |
Поскольку данный вариант затрагивает транскрипцию двух генов (MTHFR и C1orf167), то для них записаны два различных эффекта.
Для гена C1orf167 – это downstream, то есть вариант в некодирующей части ДНК, который не имеет значения (MODIFIER).
Для гена MTHFR – это missense, то есть вариант, который, хотя и не разрушает белок, но может привести к изменению его эффективности. Поэтому нужно выяснить его значимость (а пока считаем, что он умеренный – MODERATE).
Больше о патогенности варианта, мы узнаем из клинического опыта, то есть других баз данных (например, Clinvar, о которой речь пойдет ниже).
Содержание:
Часть 1. Коротко о секвенировании
1.1. Когда делают секвенирование?
1.2. Что ожидать от результатов?
1.3. Что лучше экзом или геном?
Часть 2. Немного теории: чтение ДНК, аллели, поломки генов
2.1. Что и как секвенируют?
2.2. Аллели и наследственные менделевские заболевания
2.3. Что может поломаться в гене?
Часть 3. Обработка файлов секвенирования от А до Я
3.1. Выравнивание данных в Galaxy: от FASTQ к VCF-файлу
3.2. Что мы будем делать с VCF-файлами?
3.3. Аннотирование VCF-файла c программой snpEff
Часть 4. Инструменты интерпретации и анализ данных секвенирования в Excel
4.1. Инструменты интерпретации
4.1.1. Прогноз повреждения гена snpEff
4.1.2. Клиническая значимость от Clinvar
4.1.3. Частота аллеля (AF)
4.1.4. Консервативность участка
4.1.5. Аннотации dbSNP
4.2. Подготовка файла Excel
4.3. Анализ данных в Excel