Часть 1. Коротко о секвенировании
Arad Golan Coll for Money

Часть 1. Коротко о секвенировании

Когда делают секвенирование?

Родители особых детей часто смотрят на секвенирование генома или экзома, как на шанс завершить «диагностическую Одиссею». Они надеются выяснить ключевую причину нарушений – от ДЦП, до аутизма. Даже генетический диагноз иногда дает шанс улучшить здоровье ребенка, позволяет скорректировать реабилитацию или планировать будущее семьи.

Секвенирование генома или экзома – это масштабное считывание генетического кода с целью обнаружения в нем мутаций (патогенных вариантов).

Если какие-то из множества найденных мутаций соответствуют клинической картине (видна связь генотип-фенотип), то лаборатория делает предположения о генетическом заболевании.

Конечно, наследственные заболевания диагностируют и без секвенирования – по анализам и по результатам обследования. Особенно, если нарушение хорошо описано. Обычно секвенирование экзома или генома проводят при подозрении на неустановленные генетические заболевания.

Дело в том, что многие внешне одинаковые нарушения могут быть следствием мутаций в десятках различных генов. Особенно при неврологических расстройствах, включая аутизм, эпилепсию, ДЦП, двигательные и сенсорные нарушения, миопатию, умственную отсталость и другие. Они часто становятся диагностической проблемой для врача-генетика.

И наоборот, часто мутации в одном и том же гене могут вызывать различные внешние проявления. Секвенирование может помочь поставить диагноз и в таких сложных случаях.

Секвенирование не позволяет обнаружить крупные изменения в геноме из-за высокой детализации метода. Это связано с самой технологией «нарезки» ДНК на небольшие участки.

Например, если подозреваются крупные хромосомные изменения, то определяют кариотип. Чтобы выявить мелкие хромосомные изменения проводят ХМА (хромосомный микроматричный анализ) или MLPA (Multiplex ligation-dependent probe amplification). Однако эти методы не выявят проблемы на уровне отдельных молекул ДНК.

О разнице хромосомных и моногенных наследственных болезней рассказывается в этом видео.

Особняком стоят митохондриальные нарушения, которые обычно имеют специфические проявления.

У митохондрий есть собственная ДНК, в которой случаются поломки. Впрочем, митохондриальная дисфункция часто связана с мутациями в ядерной ДНК. Тогда она обнаруживается при секвенировании ДНК ядерных генов. Еще чаще дисфункция бывает вторичной, то есть напрямую не связанной с генетикой.

Побочные находки секвенирования – это распространенные генетические варианты, которые относят к предрасположенностям и факторам риска. Их обычно игнорируют в медицинских отчетах. Но они тоже снижают или изменяют функцию белка, потенциально могут повредить здоровью ребенка и стать причиной неврологических нарушений.

Триггерами таких болезней могут стать: воспаление, стресс, неправильное питание, низкая или чрезмерная физическая активность, токсичные продукты и пр. Особенно высоки риски во время беременности или в раннем возрасте. Регулирование работы генов изучает эпигенетика, которая сейчас быстро развивается.

Что ожидать от результатов?

Медики применяют высокопроизводительное секвенирование (next generation sequencing – NGS) уже более 10 лет. За это время успела накопиться статистика по эффективности метода. В зависимости от типа заболевания и правильного выбора пациента, секвенирование экзома или генома позволяет поставить диагноз редких заболеваний в 30-50% случаев.

Секвенирование все еще не метод первого выбора и не самый дешевый анализ. Тем не менее, секвенирование полнее любых генетических панелей. И секвенирование гораздо надежнее, чем его ближайшая альтернатива – применение микрочипов (CMA).

Объективные ограничения секвенирования в том, что новые гены уже известных заболеваний и многие мутации, вызывающие нарушения, только ожидают своего открытия. Генетические причины более 3000 менделевских наследственных заболеваний, остаются неизвестными. Хотя постепенно они проясняются.

Субъективно диагноз зависит от того, кто и что секвенирует.

Недавно были проанализированы результаты 37 генетических исследований, включающих 20 068 детей. Оказалось, что диагностическая полезность секвенирования генома (WGS) в среднем составляла 41%, а секвенирования экзома (WES) – 36%. В то же время для альтернативного анализа на микрочипах полезность составила лишь 10%.

Более высокая диагностическая ценность была при секвенировании трио (когда его делали сразу ребенок и двое родителей). Интересно, что 36% безрезультатных первоначальных случаев секвенирования экзома были успешно диагностированы при повторном анализе в виде трио.

Диагнозы чаще ставили тем, кто делал секвенирование и получал интерпретацию на базе клиники. В этом случае диагноз был поставлен в 42% случаев, в то время как у обратившихся в стороннюю лабораторию диагностическая ценность составила лишь 29%.

Вероятно, в наших реалиях ценность секвенирования будет у нижней границы диапазона, поскольку родители часто решают сделать анализ самостоятельно.

Как показывает практика, результаты секвенирования могут оставлять для родителей открытыми разные вопросы.

1. Половина работы.

Сейчас такие ситуации редкость, но раньше некоторые лаборатории предоставляли лишь сырые данные секвенирования, без какой-либо клинической интерпретации.

Сам процесс секвенирования (т.е. считывание и упорядочивание генетической информации) полностью автоматизируется.

Зато очень трудоемким считается следующий этап – классификация генетических вариантов с учетом проявлений болезни. Он требует привлечения генетиков или медицинских специалистов.

Конечно, лучше не экономить на медицинском анализе. Сейчас такая услуга при необходимости предоставляется отдельно, например, в этих лабораториях [1, 2, 3] . Но когда в 2014 году я обратился в американскую лабораторию DNA DTC, то она принимала заказы от частных клиентов, но не занималась медицинской интерпретацией данных. Тогда цена в $900 за секвенирование экзома с глубиной х80 показалась мне решающим аргументом. Но я был вынужден самостоятельно разбирать результаты.

2. Обезличенность и автоматизация.

Допустим, вместо медицинской лаборатории вы сделали секвенирование экзома в организации, которая занимается «здоровьем, наследственностью, предрасположенностями и персонализированой медициной». Скорее всего вы получите многостраничный, автоматически созданный отчет. В нем вы найдете множество факторов риска, например, развития диабета 2-го типа, облысения, течения туберкулеза, онкозаболеваний… Вместо ключевой проблемы – предположения о моногенном редком заболевании.

Проблема автоматических отчетов – это игнорирование фенотипа (клинических проявлений болезни). Даже если будут использоваться клинические базы данных и будет обнаружен подозрительный редкий вараинт, он может быть выброшен из отчета. Например, алгоритмы могут пропустить малоизученные или “противоречивые” варианты, как недостоверные.

Другой вопрос, может ли предрасположенность быть причиной нарушения у особого ребенка?

Потенциально может. Например, неврологическое нарушение было вторичным и связано с генетически обусловленным риском течения беременности (так оказалось у нас). С генетикой могут быть связаны неврологические осложнения эндокринных, иммунных, инфекционных заболеваний и пр.

Конечно, риски беременности касаются родителей и, хотя они могут быть причиной неврологии ребенка, не обязательно унаследуются. То есть, эти риски могут быть не видны в результатах генетического теста ребенка.

3. Недостаточно данных для специалиста.

Другая проблема – автоматически созданный отчет иногда стараются сделать доступным для понимания широкой аудитории. Особенно при обработке данных на популярных веб-сервисах. Поэтому его упрощают.

Даже если в такой отчет попадет строчка о возможной причине нарушений у ребенка, описание варианта может не содержать важных данных. Это гетерозиготность, качество прочтения, частота аллеля, степень повреждения функции гена, консервативность участка и пр.

Специалисту-генетику, будет недостаточно такого отчета. Но захочет и сможет ли он искать дополнительную информацию в массивах необработанных данных?

4. Медицинский и не более.

Обратная ситуация. Допустим, клинический отчет готовится специалистом, который изучил медицинскую информации о вашем ребенке. Вот пример хорошего клинического отчета. Часто он состоит из заключения (подтверждающего первоначальный диагноз или нет), а также подробной информации для найденной мутации.

Но раз уж была прочитана ДНК многих генов, то кому-то хочется видеть и другую полезную информацию. Зная о предрасположенностях и факторах риска, можно скорректировать диету или выбор лекарств. Например, мы выяснили, почему наш ребенок плохо переносит продукты с высоким содержанием серы и витамина B6, который ему неоднократно пытались ввести. Конечно, данные о предрасположенностях вторичны по отношению к основному диагнозу, но все-таки…

5. Устаревший отчет.

Генетические базы данных часто обновляются, через год может появиться новая информация о генах-кандидатах заболевания, которая сегодня не известна или не подтверждена. Имея исходные файлы секвенирования с расширениями .fastq или .fasta, можно сделать повторный анализ (чем мы и займемся). У некоторых лабораторий есть услуга повторного анализа данных.

6. Контроль.

Наконец, кто-то хочет самостоятельно разобрать результаты от начала до конца.

Что лучше экзом или геном?

ДНК кодирующих генов, по которым строятся белки, составляет лишь 1.5% генома. Причем она прерывается фрагментами, которые не несут полезной информации. В таком «пунктире» пустые участки называют интронами, а содержащие информацию о гене – экзонами.

Секвенирование экзома означает, что в геноме прочитаны экзоны известных кодирующих белок генов. Мутации в них обычно имеют более серьезные последствия, чем в оставшихся 98% генома. Например, около 85% всех известных генетических менделевских нарушений связаны с регионами ДНК, кодирующими белки.

Поскольку секвенирование экзома дешевле, чем секвенирование всего генома, можно в разы увеличить качество прочтений, без резкого роста затрат.

Тем не менее, услуга «секвенирование экзома» не означает, что действительно будет прочитан весь экзом. Сама технология обогащения ДНК с целью прочитать конкретные участки (гибридизация), приводят к неравномерному покрытию, создавая как «горячие точки» со слишком большим покрытием, так и регионы со слишком низким покрытием (приводя к пропущенным вариантам). Например, не будут секвенированы некоторые экзоны у самых кончиков хромосом.

Также при секвенировании экзома не будут обнаружены какие-то мутации, связанные со структурными изменениями и повторами, при которых сохраняется правильная последовательность ДНК. Например, секвенирование экзома не позволит обнаружить хорею Гентингтона или синдром хрупкой X-хромосомы.

Но из-за малой изученности, интерпретировать влияние вариантов в некодирующей области генома часто гораздо сложнее, чем в кодирующей области. Поэтому для медиков, которые хотят скорее поставить диагноз, решающую роль может играть более простой анализ данных для экзома. И наоборот, секвенирование генома чаще выбирают ученые и исследователи, у которых есть возможности для анализа больших объемов данных.

Как мы уже писали выше, в опубликованном метаобзоре диагностическая полезность секвенирования генома составляла 41%, а секвенирования экзома 36%. Эту разницу стоит учитывать при принятии решения, если нет ресурсных ограничений.

Пока что меньшая стоимость прочтения экзома определяет существенную разницу в цене, несмотря на то, что подготовка образца для экзома обходится дороже. Но стоимость прочтения ДНК с каждым годом становится все дешевле, поэтому когда-нибудь будут секвенировать только весь геном.

Тогда вопрос, «что лучше?» будет снят.

Содержание:

Часть 1. Коротко о секвенировании
1.1. Когда делают секвенирование?
1.2. Что ожидать от результатов?
1.3. Что лучше экзом или геном?

Часть 2. Немного теории: чтение ДНК, аллели, поломки генов
2.1. Что и как секвенируют?
2.2. Аллели и наследственные менделевские заболевания
2.3. Что может поломаться в гене?
Часть 3. Обработка файлов секвенирования от А до Я
3.1. Что мы будем делать с файлами?
3.2. Выравнивание данных в Galaxy: от FASTQ к VCF-файлу
3.3. Аннотирование VCF-файла c программой snpEff
Часть 4. Инструменты интерпретации и анализ данных секвенирования в Excel
4.1. Инструменты интерпретации
4.1.1. Прогноз повреждения гена snpEff
4.1.2. Клиническая значимость от Clinvar
4.1.3. Частота аллеля (AF)
4.1.4. Консервативность участка
4.1.5. Аннотации dbSNP
4.2. Подготовка файла Excel
4.3. Анализ данных в Excel