Tema 1: Introducción a la Biocomputación
-
Upload
truonghanh -
Category
Documents
-
view
225 -
download
0
Transcript of Tema 1: Introducción a la Biocomputación
Introducción a los microarrays
Nuevas aproximaciones al estudio de la actividad de los genes
Esquema de la sesión
• Presentación• Introducción• Microarrays de expresión• Experimentos con microarrays• Análisis de los datos• Ejercicios prácticos
Presentación
Y quien es él…
• Alex Sánchez – Profesor titular del departamento de
Estadística, de la facultad de Biología de la Universidad de Barcelona
– “Group Leader” del grupo de investigación “Métodos Estadísticos en Bioinformática”
– Profesor de Bioinformática, aquí allá y acullá…
• UB, UOC, UVic
The Statistics and BioinformaticsResearch Group
A research group arising fromthe Statistics Department atthe Biology School in theUniversity of Barcelona.
Objetivos
• Conocer la tecnología de experimentación con microarrays
• Comprender sus posibilidades y limitaciones
• Familiarizarse con el proceso de experimentacion basado en los microarrays
• Saber donde acudir para aprender más
Introducción-Objetivos
Contenidos• Introducción
– Antecedentes históricos: El cambio de paradigma– Que es un microarray– Que tipos de microarrays existen– Aplicaciones de los microarrays
• Experimentos con microarrays– Cómo funciona un microarray de expresión– El ciclo de vida de un experimento con microarrays
• De los números a la interpretación biologica– Preprocesado– Análisis de los datos
• Ejercicios prácticosIntroducción-Contenidos
Introducción
Antecedentes históricos
• La biología molecular dispone de múltiples técnicas para medir los niveles de ARN, ADN, proteínas o metabolitos– Northern Blot, differential display, SAGE– Southern Blott: [similar a los microarrays]
• Basado en el principio de hibridación selectiva del ADN
– …• Lo que caracteriza la era post genómica
no es lo que se puede medir sino la cantidad de mediciones simultaneas queAntecedentes Históricos
Una analogía
• En la era pre-genómica la biología “espiaba” los genes – Individualmente, de uno en uno– Cada gen se podía estudiar a fondo
Antecedentes Históricos
Una analogía (y 2)• En la era prost-genómica se pueden estudiar muchos
genes a la vez• Pero, como separamos el grano de la paja?
W W W
Lo he oído todo
Antecedentes Históricos
El cambio de paradigma (J. Dopazo)
Con los mismos recursosObtenemos una imagen de menor resolución pero con una perspectiva más general
Con los mismos recursosObtenemos una imagen de menor resolución pero con una perspectiva más general
Antecedentes Históricos
Pero, ¿Qué es un microarray?
• Un formato experimental,
• basado en la síntesis o fijación de sondas, que representan los genes (o proteinas, o metabolitos),
• sobre un sustratosólido (cristal, plástico, silice,...),
• y expuestos a las molé-culas diana (laQues es un microarray
Cómo funciona un microarray• El nivel de hibridación
entre– la sonda específica (probe)
y– la molécula diana (target)
• se indica generalmente– mediante fluorescencia y
se– mide por análisis de
imagen• e indica el nivel de
expresión del gendi t l
Cómo funciona un microarray
Que tipos de microarrays existen
• De Proteínas• De Tejidos• De DNA
– Arrays de CGH– SNPs
• De Expresión– De cDNA– De
oligonucleótidos:• GeneChip®
Affymetrix• Otras marcasTipos de microarrays
*****
GeneChip Affymetrix
cDNA microarray
Nylon membrane
IlluminaBead Array
Tipos de microarrays de expresión
Agilent: Long oligo Ink Jet
Microarrays de expresión
Aplicaciones de los microarrays
• Los microarrays se han aplicado al estudio de casi cualquier tipo de problema biológico
• El numero de publicaciones anuales con la palabra microarray en el título es muy alto y continua creciendo (?)
15 55169
434
789
1061
13051372
0
200
400
600
800
1000
1200
1400
1600
1998
1999
2000
2001
2002
2003
2004
2005
Aplicaciones de los microarrays (2)
• Estudio de genes que se expresan diferencialmente entre varias condiciones– Sanos/enfermos, mutantes/salvajes, tratados/no
tratados• Clasificación molecular en enfermedades
complejas• Identificación de genes característicos de una
patología (firma o “signature”)• Predicción de respuesta a un tratamiento• Detección de mutaciones y polimorfismos de un
único gen (SNP)Et t t
Construcción y uso de los microarrays de expresión
Microarrays de expresión
• Existen muchos tipos de microarrays• Los principios en que se basan son
similares• Los detalles de su funcionamiento varían
de uno a otro caso• En este primer contacto nos centraremos
en los arrays de expresión– Arrays de 2 colores (spotted)– Arrays de oligonucleótidos sintetizados in situ
Microarrays de 2 colores (spotted)
1. Diseño y producción del chip2. Preparación de la muestra3. Hibridación4. Escaneado del chip 5. Análisis de la imagen
1. Construcción del chip
• Las sondas a imprimir se seleccionan de una base de datos (GenBank, dbEST,,,)
• Tras generar los cDNAs se imprimen en el array
2. Preparación de la muestra
• Tras extraer el RNA de las muestras se marcacon un colorante fluorescente distinto (Cy-3 / Cy-5) cada miembro del par a hibridar.
• Las muestras marcadas se mezclan y preparanpara hibridar sobre el array.
3. Hibridación: sondas + muestras
Targets labeled andmixed
4. Escaneado y captura de la imagen
5. Análisis de la imagen y cuantización
−= =
−, or g g g
CORRg g g
R R bgRM M
G G bgG
Visión general del proceso
Pulse este enlace para visualizar una animación del proceso
Microarrays de oligos sintetizados in situ
• Diseño más avanzado que los de 2 colores
• Utilizan tecnologías desarrolladas en el entorno de la microelectrónica
• Algunos rasgos distintivos– No se basan en hibridación competitiva: cada
chip contiene muestras de un solo tipo ( ”1 color”)
– Las sondas se sintetizan directamente sobre el chip en vez de sintetizarlas in vitro y adherirlas después
Los GeneChips de Affymetrix
• Affymetrix (www.affymetrix.com) es la compañía lider en este tipo de chips
• Se denominan genericamente GeneChips• Cada gen esta representado por un
conjunto de secuencias cortas que lo caracterizan
• Algunos chips contienen genomas completos con más de 50.000 grupos de sondas!
Probesets, probes, PM & MM
• Un grupo de sondas se utiliza para medir niveles de mRNA de un único gen
• Cada grupo (probeset) consta de múltiples pares de celdas (probe cells)– Con millones de copias de un oligo de 25bp– Organizadas en parejas (probe pairs) con un
Perfect Match (PM) y un Mismatch (MM)• PM: coincide exactamente con una parte del gen• MM: idéntico al PM excepto en el nucleótido
central reemplazado por su complementario
Ejemplo de grupo de sondas paramedir el nivel de expresión de un gen
particular
probepair
probecell
gene sequence...TGCAATGGGTCAGAAGGACTCCTATGTGCCT...AATGGGTCAGAAGGACTCCTATGTGAATGGGTCAGAACGACTCCTATGTG
perfect match sequencemismatch sequence
probe set
Distintos Pares de Sondas representanpartes distintas del mismo gen (1 gen=1
grupo de sondas)
Secuencia del gen
Las sondas se seleccionan para ser específicas del gen que representany para tener buenas propiedades de hibridación
Síntesis de oligonucleótidos por fotolitografía1
GeneChip
maskmaskmaskmaskmaskmaskmask
mask
A ACC
GG
TT
TA
TT A
A C C
1Animación tomada del curso de Dan Nettleton
Resultado de la sintesis de oligos en el chip
Image courtesy of Affymetrix.
Cada celdacontienemúltiples copiasde la mismasecuencia
Proceso de hibridaciónTras la síntesis de los “oligos”se realiza la hibridación, depositando el mRNA marcado del tejido a estudiar sobre cada chip
Image courtesy of Affymetrix.
Obtención del mRNA marcado
Source: www.affymetrix.com
Estimulación de la muestrahibridada
Iluminando la muestra hibridada con luz laser las secuencias marcada emiten fluorescencia
Source: www.affymetrix.com
Imagen de un chip de Affymetrixhibridado
Visión general del proceso (Affy)
@Affymetrix
VENTAJAS
• Económicos• Flexibilidad en el diseño
experimental• Elevada intensidad de señal
(secs largas)
DESVENTAJAS
• Baja Reproducibilidad• Hibridación cruzada (baja
especificidad)• Elevada manipulación manual
(Posibilidad de contaminación)
VENTAJAS
• Fabricación Rápida y más robotizada• Elevada Reproducibilidad• Elevada especificidad (secuencias
cortas)• Utiliza muchas sondas/gen
DESVENTAJAS
• Requiere equipamiento más especializado
• Caros• Poca flexibilidad
Microarrays de cDNA Microarrays de Oligonucleótidos
Comparación entre los 2 tipos de chips
Experimentos con microarrays
Experimentos con microarrays
• Fuentes de variabilidad y su control• Ciclo de vida de un experimento con
microarrays• El diseño del experimento
– Tipos de cuestiones que se desea responder– Factores que debemos tener en cuenta
• Preprocesado: de los datos crudos al análisis– Control de calidad– Normalización
Experimentos con microarrays
• Tal y como su nombre indica un experimento con microarrays es un experimento, es decir:– Se lleva a acabo para determinar si ciertas
hipótesis previas son ciertas o falsas (auncuando también puede llevar a generarnuevas hipótesis
• Como todo experimento está sujeto a errores que pueden provenir de múltiplesfuentes y ser de tipos distintos– Aleatorios
Fuentes de variabilidad• Biological Heterogeneity in
Population.• Specimen Collection/ Handling
Effects.– Tumor: surgical bx, FNA.– Cell Line: culture condition,
confluence level.• Biological Heterogeneity in
Specimen.• RNA extraction.• RNA amplification.
• Fluor labeling.
• Hybridization.
• Scanning.• – PMT voltage.• – laser power.
(Geschwind, Nature Reviews Neuroscience, 2001)
Tipos de variabilidad
• La variabilidad sistemática es aquella que afecta de manera similar a todas las mediciones– Cantidad de material disponible– Instrumental de laboratorio
• La variabilidad aleatoria puede afectar de forma distinta a cada componente del experimento– Calidad del material – Eficiencia de los procedimientos de
l b t i
Cómo se afronta la variabilidad• Cada tipo se trata de forma distinta
– Variabilidad Sistemática • Podemos estimar las correciones necesarias a
partir de los datos: NORMALIZACION o CALIBRACIÓN
– Variabilidad Aleatoria• Suponemos ciertos modelos de error (e.g. ei~N(0, σ2)) y recurrimos al
– DISEÑO EXPERIMENTAL Para controlarla – INFERENCIA ESTADÍSTICA para extraer conclusiones
en su presencia
• Todos estos procedimientos se integran en un flujo de trabajo (“pipeline”) o ciclo
El ciclo de vida de un experimento
De la cuestion biologica al experimento
• Una vez planteada una cuestión los implicados en el estudio deberían planearlo conjuntamente
Researchers / Core Facility/ Statisticians
• Es preciso especificar– Cual es el propósito del estudio– Que objetivos persigue– Que limitaciones y de que tipo presenta
• A partir de aquí podrá elaborarse el diseño
Diseño experimental
• Deben tomarse decisiones relativas a aspectos diversos implicados en el experimento– Tipos de muestras
• Mezcladas (“pooled”) o individuales• Con réplicas independientes o sin ellas
– Limitaciones físicas (coste) • Número de arrays necesarios/posibles• Cantidad de material necesaria/disponible
• De aquí saldrá– La forma en que se realizará el experimento– Los métodos estadísticos que debemos
1. Experimento comparativo
- + - + - + - +
Wild KO
… …
Con
trol
x5
x5
x5
x5
x5
Pro
blem x5
x5
x5
t1 t2 t3 t4
2. Estudio de evolución temporal
Y por fin … el experimento
• Una vez realizado los pasos previos puede llevarse a cabo el experimento
• Si la ejecución es la adecuada y no surgen problemas el experimento concluye con los datos provenientes del análisis de imagen
Ya tengo mis datos, ¿y ahora que?
Análisis de bajo y alto nivel
• Análisis de bajo nivel– Verificar la calidad de los datos– Ajustar los datos para poder analizarlos
• Análisis de alto nivel– Realizar las pruebas estadísticas planeadas– Buscar patrones y regularidades en los datos– Anotar los resultados en bases de datos para
contribuir a su interpretación
El preprocesado de los datos
Preprocesado (1) El control de calidad
Preprocesado (2) Normalización
El análisi de los datos
Análisis de alto nivel (1)
• Los investigadores suelen estar interesados en distintos tipos de cuestiones:.– Encontrar genes diferencialmente expresados
entre dos o más condiciones o a lo largo del tiempo.
– Identificar nuevos subtipos en una población– Descubrir patrones de expresión característicos.– Predecir la respuesta al tratamiento or clasificar
un nuevo individuo utilizando informaciónmolecular.
– Identificar genes co-regulados o expresándoseen la misma ruta metabólica.
Análisis de alto nivel (2)
• Para cada problema existen múltiples métodos– Modelos lineales, pruebas-t con shrinkage
para estudios de expresión diferencial– Distintos tipos de análisis de conglomerados
(“clustering”) para descubrir patrones de corregulación
– Métodos de clasificación tradicionales (LDA, kNN) y modernos (SVM, PAM) para construir predictores
– Métodos de análisis basados en la GO
Tests para expresión diferencial• Para comparar dos o más
grupos: extensiones del testt – El tamaño muestral suele ser ↓
– Se compensa estimando la varianza de cada gen a partir de la de todos los genes
– SAM, Empirical Bayes, …
• Para cada gen se hace un test Problema de multiplicidad– Es preciso hacer ajustes para
mútiple testing– O estimar la tasa de falsos
Análisis de conglomerados• Los genes no varían
de forma independiente
• El análisis de conglomerados permite descubrir grupos de genes que varían de forma similar
• Puede utilizarse también para agrupar muestras: (fenotipos similares)
Construcción de predictores• Permiten predecir la
clase a la que pertenece un individuo a partir de una muestra conocida y con los individuos clasificados
• Uso complejo con múltiples fuentes de error
• Requieren grandes tamaños muestrales y crosvalidaciones para
Análisis basados en la GO• Los resultados de los
estudios de microarrays suelen ser largas listas de genes
• Para contribuir a su interpretación podemos– Proyectarse en bases de
datos de anotaciones como la GO o KEGGS
– Estudiar si hay clases funcionales enriquecidas entre los genes seleccionados
– Agrupar los genes por su similitud funcional
Resultados
Conclusiones y perspectivas• Los experimentos con microarrays han
revolucionado el estudio de la genómica funcional– Mejorando el conocimiento de la función de los
genes a partir de la similitud de patrones de expresión
– Mejorando el conocimiento de las familias de genes:
• Permiten incluir nuevos genes en las familias• Descubren patrones de expresión coordinados• Aumenta el número de familias conocidas de
genes• Como toda tecnologías los tiene sus
The Promise of Microarray Technologyin Treating Disease (NCBI) (1)
Now that you understand the conceptbehind array technology, picture this:
• A hand-held instrument that a physician coulduse to quickly diagnose cancer or other diseasesduring a routine office visit.
• What if that same instrument could also facilitatea personalized treatment regimen-exactly rightfor you?
The Promise of Microarray Technologyin Treating Disease (NCBI) (2)Personalized drugs, Molecular
diagnostics andIntegration of diagnosis and therapeutics•These are the long-term promises ofmicroarray technology
•Maybe not today or even tomorrow, butsomeday
•For the first time, arrays offer hope forobtaining global views of biologicalprocessesby providing a systematic way to