Часть 2. Немного теории: чтение ДНК, аллели, поломки генов

Часть 2. Немного теории: чтение ДНК, аллели, поломки генов

Как наследуются заболевания и какими бывают мутации – сложные темы. Но без понимания, что такое аллель и где именно образуются поломки в генах не обойтись, если вы хотите анализировать результаты секвенирования. Эта теория тесно связана с практикой.

Что и как секвенируют?

ДНК для секвенирования выделяют из биологических материалов, которые мы отправляем в лабораторию. Это может быть щеточка с буккальным соскобом ребенка (эпителий с внутренней стороны щеки), кровь в пробирке или кровь, высушенная на фильтровальной бумаге (для удобства почтовой пересылки).

Если выделенной ДНК окажется достаточно и она пройдет контроль качества, то вам могут сообщить, что ваш образец принят. Далее он ждет своей очереди, чтобы с десятками других пройти секвенирование. Чем больше образцов обрабатывают одновременно и чем дольше продолжается секвенирование, тем дешевле его себестоимость.

Так что же конкретно читает секвенатор?

Представим, что наш генетический код (генотип) – это чертежи, записанные четырехбуквенным языком. По этим чертежам внутри клеток из аминокислот собираются белки. А с белками прямо или косвенно связаны все процессы в нашем организме.

Информация чертежей закодирована лишь четырьмя буквами A, T, G, C, точнее, молекулами из которых состоит ДНК. Но и четырех букв вполне достаточно.

Чтобы лучше понимать, что такое ДНК, рекомендую посмотреть это видео.

Технология секвенирования – это автоматическое чтение под микроскопом последовательности молекул A, T, G или C, помеченных так, чтобы они стали отличимыми друг от друга.

Сначала ДНК режется на множество отрезков. Их длина достаточна для того, чтобы не перепутать между собой. Затем каждый из этих отрезков копируется множество раз. Чтение происходит параллельно для многих копий отрезка сразу с двух сторон. Благодаря такому масштабированию и одновременности секвентатор может быстро прочитать геном или экзом. Многократное дублирование позволяет снизить вероятность ошибок.

Если вы хотите поглубже познакомиться с технологией секвенирования Illumina, рекомендую посмотреть это видео на английском языке.

После секвенирования компьютер находит место прочитанных отрезков относительно эталонного генома, то есть «выравнивает» фрагменты. Прочтения могут накладываются друг на друга, поэтому у каждой конкретной молекулы ДНК будет свое количество прочтений, которое называется «покрытие».

В этом определении нет устоявшегося термина и могут быть разные переводы с английского. Слова «покрытие», «глубина прочтения», «охват», «глубина секвенирования» могут означать одно и то же. Например, в следующих главах покрытие для конкретного нуклеотида будет обозначаться DP (DePth).

Среднее число прочитанных молекул участка (локуса), экзома или генома – называется «среднее покрытие».

Поскольку процесс чтения – случайный, всегда найдутся участки с настолько низким DP, что будут отброшены при контроле качества. Если речь идет о постановке диагноза, то таких «некачественных» прочтений, особенно в кодирующей части ДНК, должно быть немного и требования к среднему покрытию, соответственно, растут. Среднее покрытие экзома или генома определяет себестоимость и конечную цену секвенирования.

Как правило, если секвенируют целый геном, то приемлемым считают покрытие выше х20. Это означает, что каждый участок ДНК был в среднем прочитан не менее 20 раз. Экзом составляет около 2% от генома и ему можно уделить, по крайней мере, втрое больше внимания – здесь приемлемым будет покрытие x75 и более.

Дождавшись результатов секвенирования, вы получите флешку, внешний жесткий диск или email со ссылками на медицинский отчет и файлы с данными секвенирования. Оптимальным будет, если вы получите FASTQ файлы, BAM (или SAM) файл, VCF-файл и pdf-отчеты. Все их желательно сохранить у себя.

Что это за файлы?

1) Исходный материал – это большой по размеру многотомный архив с FASTQ файлами, которые содержат, по сути, сырые и неупорядоченные данные секвенирования. Для экзома их размер будет составлять около 10GB. Эти файлы важны тем, что на их основе можно будет создавать новые отчеты со свежими уточнениями. Также по этим файлам можно достоверно оценивать качество секвенирования.

2) BAM-файл или SAM-файл с выровненными относительно эталонного генома данными. То есть, с уже упорядоченной информацией о ДНК, которую можно просматривать с помощью специальных ДНК-броузеров.

3) Самое интересное для клинического анализа – это выявление различий между геномом пациента и эталонным геномом человека (variant calling). Выявленные различия записывают в сравнительно небольшой VCF-файл. С помощью специальных программ его анализируют для выявления нарушений.

Аллели и наследственные менделевские заболевания

Считается, что ДНК двух людей идентичны на 99.9% и лишь 0.1% отличий определяет разницу между нами. Но самое интересное то, что различие ДНК существует и внутри наших клеток. По сути, в них содержится информация о двух разных людях, то есть две парных хромосомы. Благодаря этому, даже несмотря на множество мутаций у каждого из нас, мы обычно не заболеваем тяжелыми наследственными заболеваниями. Если на одной хромосоме есть дефектный ген, то вторая хромосома продолжает работать как надо. И обычно одного из двух «работников» бывает достаточно, чтобы произвести нужное количество «правильных» белков.

Чтобы лучше понять, как происходит наследование признаков, рекомендую познакомиться с этим видео.

Двое разных людей в наших генах – это, конечно же, мама и папа. После оплодотворения материнские и отцовские хромосомы соединяются и обмениваются различными участками. Перемешивание генов происходит не отдельными молекулами ДНК, а большими блоками, которые обмениваются как единое целое (их называют гаплотипами). В итоге почти все наши гены состоят из двух копий-половинок, унаследованных от обоих родителей (за исключением генов половых хромосом).

Кстати, иногда, варианты генов не наследуются. Под действием внешних факторов могут происходить мутации de novo, то есть вариант гена, которого не было ни у кого из родителей.

Аллели – это различные формы одного и того же гена, расположенные в одинаковой позиции (локусе) хромосомы. Если эти участки совпадают, их называют гомозиготными, если различаются, тогда их называют гетерозиготными.

Если аллели гомозиготные, то белки получаются одинаковые и эффект такого варианта на функцию гена одинаков – тут более-менее все понятно. Но при гетерозиготном варианте, один аллель может подавлять другой во внешних проявлениях. Такие отношения между аллелями называют доминантностью. Доминантный аллель будет проявляться в фенотипе – характеристике человека (цвет волос, непереносимость продукта и т.п.), а рецессивный никак не будет себя проявлять, оставляя играть роль доминантному.

Конечно, степени подавления могут быть разными, например, может быть и смешанный тип, когда свои особенности проявляют оба аллеля.

Вспомним школьный урок биологии про законы Грегора Менделя, рисунки с белыми и красными тюльпанами, а также варианты потомства, которое они дают при различных типах наследования. Следующие поколения тюльпанов при скрещивании могут оставаться красными и белыми, быть промежуточными по окрасу (розовыми) или даже с разными цветами отдельных лепестков.

Так и большинство генетических нарушений – моногенные и имеют понятные закономерности наследования в соответствии с законами Менделя. Поэтому они называются менделевскими заболеваниями.

Отсюда, два основных типа менделевских заболеваний. Оба могут быть предсказаны по законам генетики с определенной вероятностью, если известны варианты генов отца и матери.

Аутосомно-доминантное наследование, при котором болезнь может проявиться в случае, если у человека есть хотя бы один «дефектный» ген, унаследованный от отца или матери.

Если хотя бы у одного из родителей есть соответствующий генетический дефект, то не только у него развивается заболевание, но с вероятностью 50% это заболевание передастся ребенку. Выраженность заболевания будет зависеть от степени доминирования и степени повреждения гена, а она может меняться при передаче. Нарушения у родителя могут быть с очень «смазанными» симптомами (низкая пенетрантность) или проявиться уже в зрелом возрасте. Также аутосомно-доминантное наследование часто связано с мутациями de novo.

Аутосомно-рецессивное наследование, при котором болезнь проявляется только в том случае, если «дефектный» ген был унаследован от обоих родителей. То есть, обе парные хромосомы содержат мутацию на одном и том же участке.

Мы все носим множество редких «дефектных» генов. Но человек, имеющий только одну копию «дефектного» гена (а другую – «нормального» гена), при этом типе наследования является полностью или почти полностью здоровым. Он лишь носитель. Если же оказалось, что оба родителя ребенка являются носителями одной и той же болезни, то с вероятностью 25% ребенок унаследует генетический дефект от обоих родителей, а ни одной нормальной копии соответствующего гена у него не будет. В этом случае развивается заболевание.

Сцепленное с полом наследование связано с непарными половыми хромосомами. Правда непарные (XY) они только у мужчин, а у женщин они парные (XX), как и остальные хромосомы.

Некоторые заболевания передаются только от отца к сыну (когда «плохой» ген находится на мужской Y-хромосоме) или же от матери детям обоего пола (когда вызывающая болезнь мутация происходит на женской Х-хромосоме).

Этот тип заболеваний чаще всего проявляется у мужчин. Ведь, если «плохой» аллель находится на Y-хромосоме, то женщина, в принципе, не может его получить, так как обе половые хромосомы у женщин – это Х-хромосомы. Если болезнь связана с мутацией в женской половой хромосоме, то мужчина, получивший «плохую» хромосому, будет болен (так как у него в геноме нет «здоровой» пары).

У девочки-носителя действие мутантного аллеля обычно маскируется его здоровым напарником, и болезнь проявляется только в том случае, если обе ее Х-хромосомы несут мутацию.

Понятно, что редкое наследственное заболевание означает, что соответствующий аллель мало распространен. Частота аллеля (AF) – ключевой параметр, с которым мы будем работать. Она измеряется в процентах или как число от нуля до единицы. Частота аллеля определяется, как доля всех хромосом в популяции, которые несут эту аллель. Их расчетом занимается популяционная генетика.

Что может поломаться в гене?

Путь от гена до образования белка – это удивительно красивый процесс. Он состоит из двух основных этапов – транскрипции и трансляции, который происходит по цепочке: Ген –> РНК-полимераза –> мРНК (она же иРНК) –> рибосома –> белок.

Образование белка хорошо описано в этих видео [тут и тут].

Наши белки состоят из 20 аминокислот. Каждая аминокислота белка кодируется тремя идущими подряд буквами ДНК. Эта тройка называются триплетом (или кодоном). Подробнее о кодировании на английском можно почитать тут.

Большинство генетических вариаций – это точечные замены одной буквы ДНК на другую. Они называются однонуклеотидный полиморфизм – SNP или SNV (Single nucleotide polymorphism/variant). Но также распространены индели (indel) – это короткие вставки лишних молекул ДНК или наоборот выпадения тех нуклеотидов, которые должны быть (делеции).

Ошибки даже в одной из букв триплета могут привести ко вставке неправильной аминокислоты. А это, в свою очередь, может привести к неправильному образованию белка, когда его функция будет снижена или вообще утрачена.

Иногда SNP становятся причиной тяжелых генетических заболеваний (например, муковисцидоза). Но гораздо чаще точечные изменения безобидны, поэтому их и называют не мутациями, а вариантами.

Более 160 миллионов описанных в медицине и генетике вариантов хранятся в генетической энциклопедии полиморфизмов dbSNP, под уникальными номерами (RefSNP), которые начинаются с префикса rs.

Пример варианта из dbSNP

Приведем пример очень распространенного SNP, который вы, возможно, найдете в своих результатах секвенирования:

Вариант под номером rs1801131 –  это SNP в гене MTHFR. В нашем случае был вариант T>G (то есть, однонуклеотидная замена “T” на “G”) в хромосоме 1 в позиции 11,794,419 по референсоному геному GRCh38. Такая замена ДНК приведет к тому, что в белке вместо аминокислоты глутамин будет вставлена аминокислота аланин.

Белок МТНFR (метилентетрагидрофолатредуктаза) участвует в превращении гомоцистеина в метионин. При гетерозиготном варианте функция гена сохранена примерно на 65%, а при гомозиготном – примерно на 30%.

Согласно данным 1000 Genome, частота аллеля в мире составляет 24,94%. Это означает что вероятность быть носителем гомозиготного варианта составляет около 6%.

Под номером 3521 этот же вариант хранится в клинической базе данных Clinvar, где записаны те SNV, которые имеют медицинское значение. В разделе Conditions можно прочитать про ассоциированные заболевания.

Влияние варианта на функцию белка можно прогнозировать не только на основании клинических баз данных, но и на базе алгоритмов, которые учитывают, какой именно участок гена был изменен.

Но как так сразу можно узнать о серьезности мутации?

Участок ДНК гена состоит из нескольких фрагментов, которые неравнозначны по важности. Первый фрагмент указывает РНК-полимеразе на начало считывания, далее идет область экзонов вместе с интронами, завершающий фрагмент кода указывает на конец гена, то есть, служит командой для прекращения считывания. Повреждения в этих областях будут иметь совершенно различные последствия.

Схематическая структура гена

Как будет выглядеть такой анализ на практике?

Когда мы будем делать аннотирование VCF-файла, то инструмент snpEff добавит к каждому варианту множество подписей. Среди них будет столбец ANN[*].IMPACT (Impact prediction), в котором записано одно из четырех значений HIGH, MODERATE, LOW, MODIFIER. За редкими исключениями, с нарушением могут быть связаны варианты HIGH или MODERATE.

Чтобы оценить влияние конкретного варианта, программа ориентируется на таблицу соответствия. То есть, на записи соседнего столбца ANN[*].EFFECT. Сюда алгоритм записывает, какую именно часть или структуру гена затронул вариант.

Таблица соответствия

Влияние
ANN[*].IMPACT
Описание ANN[*].EFFECT
HIGH Предполагается, что вариант оказывает сильное (разрушительное) воздействие на белок, вероятно вызывая укорочение белка, потерю функции или запуска нонсенс-опосредованного распада. chromosome_number_variation
exon_loss_variant
frameshift_variant
rare_amino_acid_variant
splice_acceptor_variant
splice_donor_variant
start_lost
stop_gained
stop_lost
transcript_ablation
MODERATE Неразрушающий вариант, который может изменить эффективность белка. 3_prime_UTR_truncation
& exon_loss
5_prime_UTR_truncation
& exon_loss_variant
coding_sequence_variant
conservative_inframe_deletion
conservative_inframe_insertion
disruptive_inframe_deletion
disruptive_inframe_insertion
missense_variant
regulatory_region_ablation
splice_region_variant
TFBS_ablation
LOW Предполагается, что вариант в основном безвреден или вряд ли изменит поведение белка. 5_prime_UTR_premature_start_codon_gain_variant
initiator_codon_variant
splice_region_variant
start_retained
stop_retained_variant
synonymous_variant
MODIFIER Обычно некодирующие варианты или варианты, влияющие на некодирующие гены, где предсказания затруднены или нет доказательств воздействия. 3_prime_UTR_variant
5_prime_UTR_variant
coding_sequence_variant
conserved_intergenic_variant
conserved_intron_variant
downstream_gene_variant
exon_variant
feature_elongation
feature_truncation
gene_variant
intergenic_region
intragenic_variant
intron_variant
mature_miRNA_variant
miRNA
NMD_transcript_variant
non_coding_transcript_exon_variant
non_coding_transcript_variant
regulatory_region_amplification
regulatory_region_variant
TF_binding_site_variant
TFBS_amplification
transcript_amplification
transcript_variant
upstream_gene_variant

Повреждения очевидно будут сильными (HIGH), если они связаны с исчезновением целого экзона (exon_loss_variant), нарушению кратности считывания триплета ДНК (frameshift_variant), преждевременной остановке считывания (stop_gained) и прочими серьезными структурными проблемами.

Зато на этапе первичного анализа можно не обращать внимания на строки LOW и MODIFIER.  В них, например, записаны SNP в некодирующей области (intron_variant), синонимичные варианты, которые несмотря на замену в ДНК приведут к кодированию одной и той же аминокислоты, а также другие малозначимые изменения.

Например, для описанного выше варианта rs1801131 может быть такая запись.

ANN[*].EFFECT ANN[*].IMPACT ANN[*].GENE
missense_variant, downstream_gene_variant MODERATE, MODIFIER MTHFR,C1orf167

Поскольку данный вариант затрагивает транскрипцию двух генов (MTHFR и C1orf167), то для них записаны два различных эффекта.

Для гена C1orf167 – это downstream, то есть вариант в некодирующей части ДНК, который не имеет значения (MODIFIER).

Для гена MTHFR – это missense, то есть вариант, который, хотя и не разрушает белок, но может привести к изменению его эффективности. Поэтому нужно выяснить его значимость (а пока считаем, что он умеренный – MODERATE).

Больше о патогенности варианта, мы узнаем из клинического опыта, то есть других баз данных (например, Clinvar, о которой речь пойдет ниже).

Содержание:

Часть 1. Коротко о секвенировании
1.1. Когда делают секвенирование?
1.2. Что ожидать от результатов?
1.3. Что лучше экзом или геном?

Часть 2. Немного теории: чтение ДНК, аллели, поломки генов
2.1. Что и как секвенируют?
2.2. Аллели и наследственные менделевские заболевания
2.3. Что может поломаться в гене?

Часть 3. Обработка файлов секвенирования от А до Я
3.1. Выравнивание данных в Galaxy: от FASTQ к VCF-файлу
3.2. Что мы будем делать с VCF-файлами?
3.3. Аннотирование VCF-файла c программой snpEff
Часть 4. Инструменты интерпретации и анализ данных секвенирования в Excel
4.1. Инструменты интерпретации
4.1.1. Прогноз повреждения гена snpEff
4.1.2. Клиническая значимость от Clinvar
4.1.3. Частота аллеля (AF)
4.1.4. Консервативность участка
4.1.5. Аннотации dbSNP
4.2. Подготовка файла Excel
4.3. Анализ данных в Excel