Análisis genético usando datos de secuenciación masiva

Michael Hackenberg

hackenberg@ugr.es

Motivación

Existen diferentes situaciones en las que interesa detectar el genotipo de un individuo Identificación del portador: análisis genético de una pareja que está pensando en tener un hijo y cuyos miembros pertenecen a familias con antecedentes . Diagnóstico pre-natal: es el test genético de un feto. Puede ser realizado en los casos en los que existe riesgo de que el bebé presente genes asociados a un retraso mental o discapacidad física. Exploración del recién nacido: se realiza frecuentemente como medida preventiva de salud, presentando una ventaja obvia para el recién nacido cuando existe un tratamiento disponible. Trastornos de aparición tardía: incluye el análisis de enfermedades en adultos como, por ejemplo, cáncer y enfermedades cardiacas. Estas enfermedades son complejas y las causas para su desarrollo pueden ser tanto genéticas como medioambientales.

Enfermedades mendelianas

Ejemplos: Enfermedades mendelianas

Base de datos: OMIM (Online Mendelian Inheritance in Man) http://www.ncbi.nlm.nih.gov/omim

Toda la información acerca de enfermedades mendelianas conocidas

incluyendo 12000 genes y la relación entre el genotipo y fenotipo

Hemoglobinopathies: sickle cell anaemia,thalassemia

Inborn errors of metabolism:PKU,Alkaptonuria……

Albinism

Cystic Fibrosis

Hirschsprung disease

Fenotipos complejos

Objetivo

Corto plazo: Descubrir la base molecular de un fenotipo complejo, es decir la variación genética que puede explicar las diferencias fenotípicas entre los individuos de dos grupos (casos/controles)

Largo plazo: Mejorar la prevención y el tratamiento de enfermedades

Factores genéticos

Factores ambientales

Fenotipo complejo

• Algunos canceres • Diabetes (ambos tipos) • Alzheimer • Adicciones • Altura • Etc, etc, …

En un principio podríamos usar diferentes tipos de variación para detectar las diferencias entre poblaciones o grupos (sanos/enfermos) pero el análisis genético se basa frecuentemente en SNPs

SNPs: Polimorfismo de nucleótido simple • Suelen tener solo dos alelos, por ejemplo

• Mas de 2/3 de todos los SNPs derivan de un dinucleótido CpG (mutación por metilación)

• MAF: Minor Allele Frequency (frecuencia del alelo menos frecuente)

• A partir de una MAF del 5% (algunas veces del 1%) se define como SNP común

• Los SNPs comunes se suelen emplear en los estudios de asociación

Tipos de variación: insercion y deleción

http://www.hgmd.cf.ac.uk/docs/mut_nom.html

Inserción en humano/chimpancé

Deleción en ratón/rata

Alineamientos

Genotípo y haplotípo

Frecuencia vs. Efecto

Detectar variación con chips de DNA

El principio de detectar variación mediante chips de DNA es el mismo que determinar los perfiles de expresión:

Secuenciación masiva

Métodos actuales Second Generation Sequencing (Secuenciación masiva) 454

Pyrosequencing (PS)

Illumina Reversible Termination (RT)

SOLID Sequencing by Ligation (SBL)

Secuenciación

Variación y genotípo

SNP calling: detectar si en una posición dada existe variación Genotype calling: Detectar el genotípo de un individuo en la posición

Variación y genotípo

Posición: chr9:139266466-139266536 Alelo de la referencia: C 8 reads indican timina en la muestra 10 reads indican citosina en la muestra

Heterocigoto con genotipo: C/T

Detección de variación y genotípo

Protocolo

(1) discovery: alignment of sequence reads to the reference genome and identification of candidate sites or regions at which one or more samples differ from the reference sequence;

(2) filtering: use of quality control measures to remove candidate sites that were probably false positives;

(3) genotyping: estimation of the alleles present in each individual at variant sites or regions;

(4) validation: assaying a subset of newly discovered variants using an independent technology, enabling the estimation of the false discovery rate (FDR). Independent data sources were used to estimate the accuracy of inferred genotypes.

El punto de partida: FASTQ

@SRR037876.8543926 GSM522374_1:1:148:931:861 TAGTTCTACAGTCCGACGATCTCGTATGCCGTCTTC + BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9# @SRR037876.8543927 GSM522374_1:1:148:931:517 AGCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCT + BBC@3<1=872661.@C;@A93+?:;.2.?386<;> @SRR037876.8543928 GSM522374_1:1:148:931:648 TGAGGTAGTAGGTTGTGTGGTTAATCGTATGCCGCT + 5@059)@6?':9>0<@@)@=BA8)99@3258?#### @SRR037876.8543929 GSM522374_1:1:148:931:770 GCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCTT +

Identificador

Secuencia del ‘read’

Calidad del ‘read’

La calidad Los caracteres se pueden convertir en un score (Q, Phred score) de calidad

La salida del secuenciador: Los reads (lecturas) en formato fastq

Phred Quality Score

Línea de calidad: BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9#

ASCII codificación B = 66 @=64 + = 43 …

Codificación depende del fabricante (por ejemplo codificación Sanger para la línea de calidad de de arriba) Q(B) = 66 – 33 = 33 (primer base) Q(@) = 64 – 33 = 31 (tercer base) Q(+) = 43 – 33 = 10 (cuarta base) …

Phred Quality Score

Q y probabilidad de un error de secuenciación

Example of extended CIGAR and the pileup output.

Li H et al. Bioinformatics 2009;25:2078-2079

Formato VCF

http://vcftools.sourceforge.net/VCF-poster.pdf

Formato VCF

Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información...

Transcript of Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información...

Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información...

Documents

Transcript of Análisis genético usando datos de secuenciación masiva · 2013-06-26 · Toda la información...

Secuenciación de Sanger

Jordi Pérez-Tur Análisis genético de formas no mendelianas de ...

Secuenciación del adn penetral

9. Secuenciación de Proteínas

EFECTA CE 12000 - interempresas.net

SECUENCIACIÓN AUTOMÁTICA DEL GENOMA HUMANO

Secuenciación de Contenidos de c.sociales

Bases mendelianas diapo

BLOQUE I: SECUENCIACIÓN GENÓMICA TEMA 1. Secuenciación de genomas completos.

€¦ · manual de instalaciÓn energÍa alarma linea encendido batería yoÑusa energizador para cerca electrificada yonusa modelos: ey- 12000 - 127 ey- 12000 - 127 sl

Dr. Antonio Barbadilla Clonación y secuenciación del DNA1 Tema 10: Clonación y secuenciación del DNA.

Manual de Secuenciación

Secuenciación de DNA y Bioinformática

Filosofía Básica U-12000

Secuenciación Por Ligación

MCK 12000 IT

Secuenciación automática

Instituto Reger · 2017-11-30 · MIDEA ELECTROLUX POTENCIA (BTU) 12000 12000 12000 15000 18000 20000 25000 30000 30000 30000 1.2.1. As Unldades Educactonais onde os serviços contratados

ENGLISH Tarantella 3 Secuenciación Didáctica

Secuenciación ácidos nucleicos