Post on 30-May-2020
Análisis genético usando datos de secuenciación masiva
Michael Hackenberg
hackenberg@ugr.es
Motivación
Existen diferentes situaciones en las que interesa detectar el genotipo de un individuo Identificación del portador: análisis genético de una pareja que está pensando en tener un hijo y cuyos miembros pertenecen a familias con antecedentes . Diagnóstico pre-natal: es el test genético de un feto. Puede ser realizado en los casos en los que existe riesgo de que el bebé presente genes asociados a un retraso mental o discapacidad física. Exploración del recién nacido: se realiza frecuentemente como medida preventiva de salud, presentando una ventaja obvia para el recién nacido cuando existe un tratamiento disponible. Trastornos de aparición tardía: incluye el análisis de enfermedades en adultos como, por ejemplo, cáncer y enfermedades cardiacas. Estas enfermedades son complejas y las causas para su desarrollo pueden ser tanto genéticas como medioambientales.
Enfermedades mendelianas
Ejemplos: Enfermedades mendelianas
Base de datos: OMIM (Online Mendelian Inheritance in Man) http://www.ncbi.nlm.nih.gov/omim
Toda la información acerca de enfermedades mendelianas conocidas
incluyendo 12000 genes y la relación entre el genotipo y fenotipo
Hemoglobinopathies: sickle cell anaemia,thalassemia
Inborn errors of metabolism:PKU,Alkaptonuria……
Albinism
Cystic Fibrosis
Hirschsprung disease
Fenotipos complejos
Objetivo
Corto plazo: Descubrir la base molecular de un fenotipo complejo, es decir la variación genética que puede explicar las diferencias fenotípicas entre los individuos de dos grupos (casos/controles)
Largo plazo: Mejorar la prevención y el tratamiento de enfermedades
Factores genéticos
Factores ambientales
Fenotipo complejo
• Algunos canceres • Diabetes (ambos tipos) • Alzheimer • Adicciones • Altura • Etc, etc, …
SNPs
En un principio podríamos usar diferentes tipos de variación para detectar las diferencias entre poblaciones o grupos (sanos/enfermos) pero el análisis genético se basa frecuentemente en SNPs
SNPs: Polimorfismo de nucleótido simple • Suelen tener solo dos alelos, por ejemplo
C/T
• Mas de 2/3 de todos los SNPs derivan de un dinucleótido CpG (mutación por metilación)
• MAF: Minor Allele Frequency (frecuencia del alelo menos frecuente)
• A partir de una MAF del 5% (algunas veces del 1%) se define como SNP común
• Los SNPs comunes se suelen emplear en los estudios de asociación
Tipos de variación: insercion y deleción
http://www.hgmd.cf.ac.uk/docs/mut_nom.html
Inserción en humano/chimpancé
Deleción en ratón/rata
Alineamientos
Genotípo y haplotípo
Frecuencia vs. Efecto
Detectar variación con chips de DNA
El principio de detectar variación mediante chips de DNA es el mismo que determinar los perfiles de expresión:
Secuenciación masiva
Métodos actuales Second Generation Sequencing (Secuenciación masiva) 454
Pyrosequencing (PS)
Illumina Reversible Termination (RT)
SOLID Sequencing by Ligation (SBL)
Secuenciación
Secuenciación
Variación y genotípo
SNP calling: detectar si en una posición dada existe variación Genotype calling: Detectar el genotípo de un individuo en la posición
Variación y genotípo
Posición: chr9:139266466-139266536 Alelo de la referencia: C 8 reads indican timina en la muestra 10 reads indican citosina en la muestra
Heterocigoto con genotipo: C/T
Detección de variación y genotípo
Protocolo
(1) discovery: alignment of sequence reads to the reference genome and identification of candidate sites or regions at which one or more samples differ from the reference sequence;
(2) filtering: use of quality control measures to remove candidate sites that were probably false positives;
(3) genotyping: estimation of the alleles present in each individual at variant sites or regions;
(4) validation: assaying a subset of newly discovered variants using an independent technology, enabling the estimation of the false discovery rate (FDR). Independent data sources were used to estimate the accuracy of inferred genotypes.
El punto de partida: FASTQ
@SRR037876.8543926 GSM522374_1:1:148:931:861 TAGTTCTACAGTCCGACGATCTCGTATGCCGTCTTC + BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9# @SRR037876.8543927 GSM522374_1:1:148:931:517 AGCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCT + BBC@3<1=872661.@C;@A93+?:;.2.?386<;> @SRR037876.8543928 GSM522374_1:1:148:931:648 TGAGGTAGTAGGTTGTGTGGTTAATCGTATGCCGCT + 5@059)@6?':9>0<@@)@=BA8)99@3258?#### @SRR037876.8543929 GSM522374_1:1:148:931:770 GCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCTT +
Identificador
Secuencia del ‘read’
Calidad del ‘read’
La calidad Los caracteres se pueden convertir en un score (Q, Phred score) de calidad
La salida del secuenciador: Los reads (lecturas) en formato fastq
Phred Quality Score
Línea de calidad: BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9#
ASCII codificación B = 66 @=64 + = 43 …
Codificación depende del fabricante (por ejemplo codificación Sanger para la línea de calidad de de arriba) Q(B) = 66 – 33 = 33 (primer base) Q(@) = 64 – 33 = 31 (tercer base) Q(+) = 43 – 33 = 10 (cuarta base) …
Phred Quality Score
Q y probabilidad de un error de secuenciación
Example of extended CIGAR and the pileup output.
Li H et al. Bioinformatics 2009;25:2078-2079
© 2009 The Author(s)
Formato VCF
http://vcftools.sourceforge.net/VCF-poster.pdf
Formato VCF