Секвенирование экзома или генома: подготовка данных и анализ результатов для начинающих

Секвенирование экзома или генома: подготовка данных и анализ результатов для начинающих

Секвенирование экзома или генома – это масштабный генетический тест, который становится все доступнее. Родители особых детей обычно возлагают на него большие надежды. Хотя далеко не все из них получают диагноз.

В первой части этого лонгрида мы узнаем об ограничениях и подводных камнях секвенирования.

Но главный вопрос, на который отвечает статья, другой – можно ли самостоятельно работать с файлами и данными секвенирования? Он когда-то возник у меня и возникает у многих родителей. Опытом такого анализа я и хочу поделиться.

Конечно, это ответственная работа, которой занимаются специалисты – генетик и биоинформатик. Но существуют ли формальные ограничения в обработке своих биоданных? Нет, ведь официальный диагноз вам все равно поставит врач.

Для начала работы обязательно нужно понимание: 1) того как устроены гены, 2) как секвенируют ДНК, 3) наследования заболеваний и 4) какими бывают поломки генов. Поэтому во второй части я собрал немного необходимой теории.

В третьей части будет много практики по обработке результатов секвенирования. Мы пойдем по пути наибольшей эффективности и наименьшего сопротивления. Это облачная платформа Galaxy для работы с огромными FASTQ-файлами. А также связка Cygwin+snpEff для быстрого аннотирования (описания) найденных мутаций в VCF-файлах.

В четвертой части статьи мы познакомимся с инструментами клинической интерпретации и разберем результаты вручную, используя Excel.

Также в третьей и четвертой части будет несколько видео с пошаговой демонстрацией основных этапов работы.

Дисклеймер: Эта статья очень поверхностно раскрывает тему анализа NGS-данных. Она не может заменить учебники по генетике, мануалы и Pubmed. Ее цель – помочь на старте человеку без специального образования. Я не генетик (моя область – анализ данных). Поэтому прошу извинить меня за возможные неточности. Пожалуйста, напишите, если их заметите!

Содержание:

Часть 1. Коротко о секвенировании
1.1. Когда делают секвенирование?
1.2. Что ожидать от результатов?
1.3. Что лучше экзом или геном?
Часть 2. Немного теории: чтение ДНК, аллели, поломки генов
2.1. Что и как секвенируют?
2.2. Аллели и наследственные менделевские заболевания
2.3. Что может поломаться в гене?
Часть 3. Обработка файлов секвенирования от А до Я
3.1. Выравнивание данных в Galaxy: от FASTQ к VCF-файлу
3.2. Что мы будем делать с VCF-файлами?
3.3. Аннотирование VCF-файла c программой snpEff
Часть 4. Инструменты интерпретации и анализ данных секвенирования в Excel
4.1. Инструменты интерпретации
4.1.1. Прогноз повреждения гена snpEff
4.1.2. Клиническая значимость от Clinvar
4.1.3. Частота аллеля (AF)
4.1.4. Консервативность участка
4.1.5. Аннотации dbSNP
4.2. Подготовка файла Excel
4.3. Анализ данных в Excel