Post on 29-Jan-2016
Gisella Orjeda Mayo 2006
Introducción a la Genómica
Gisella Orjeda
Gisella Orjeda Mayo 2006
Que es la Genómica?
• La genética estudia la herencia de los genes, uno a la vez. La Genómica trata de mirar todos los genes como un sistema dinámico, a través del tiempo, para determinar como interactúan e influencian las vías, redes biológicas, y la fisiología. Es mucho mas global. Es un proceso dinámico
Gisella Orjeda Mayo 2006
Que es el secuenciamiento del ADN?
• El secuenciamiento del ADN es el proceso que determina el orden exacto de las bases que conforman un genoma.
Gisella Orjeda Mayo 2006
Para que sirve?• Numero de genes que controlan un carácter, localización y función • Regulación génica• Organización de la secuencia de ADN• Tipos de DNA no codante, cantidad, distribución, contenido de información y funciones• Coordinación de la expresión génica síntesis de proteínas, y eventos post-translacionales. • Interacción de las proteínas en las maquinaria molecular compleja• Comparación entre la función génica predicha y la determinada experimentalmente • Conservación evolutiva entre organismos • Conservación de proteínas (estructura y función) • Estudio del Proteoma (contenido total de proteínas y función) en organismos • Correlación de SNPs (variaciones de una base entre individuos) con salud y enfermedad • Susceptibilidad a una enfermedad basados en la variación de la secuencia• Genes involucrados en caracteres complejos y enfermedades multigenicas
Gisella Orjeda Mayo 2006
3,000’000,000 bp
La posibilidad de un esfuerzo coordinado para secuenciar el genoma humano se toco por primera vez en un meeting en la universidad de California en Santa Cruz en 1985.
Gisella Orjeda Mayo 2006
Como se secuencia?
• http://www.ornl.gov/sci/techresources/Human_Genome/project/info.shtml#how
Gisella Orjeda Mayo 2006
Avances técnicos que hicieron posible el secuenciamiento del
genoma humano• La polymerase chain reaction (PCR) que
permitió producir muchas copias de ADN rápida y precisamente
• Un método de secuenciamiento automatizado elaborado en base a la técnica de la PCR y el proceso de secuenciamiento desarrollado por Frederick Sanger en 1977
Gisella Orjeda Mayo 2006
http://www.csun.edu/%7Ehcbio027/biotechnology/lec3/sanger.html
Gisella Orjeda Mayo 2006
Añadir ddGTP, ddATP,ddCTP,ddTT, a cada uno de los tubos conteniendo el ADN de interés, luego de la reacción separarlos en un gel
Para secuenciar leer el orden de las bases desde la mas corta hasta la mas grande
Gisella Orjeda Mayo 2006
Gisella Orjeda Mayo 2006
Gisella Orjeda Mayo 2006
Gisella Orjeda Mayo 2006
Cartografiar el genoma o (mapear) involucra:
1. Cortar los cromosomas en fragmentos pequeños que puedan ser mantenidos, propagados y caracterizados.
2. Ordenarlos en sus posiciones correspondientes en los cromosomas.
Una vez que el mapeo se completa, el siguiente paso es determinar las bases de cada uno de los fragmentos que ha sido ordenado
Gisella Orjeda Mayo 2006
Gisella Orjeda Mayo 2006
Enzimas de restricción (Restricción incompleta)
Gisella Orjeda Mayo 2006
Gisella Orjeda Mayo 2006
Vectores
Vectores Caracteristicas Talla inserto
Plasmido E.coli- Introducidos por transfornacion 1-5 kb (electroporacion or heat shock)
Fago E.coli- Virus que infecta bacterias 10-15 kbIntroducido por transfeccion
Cosmido E.coli- Plasmido con “cos” sites para 30-45 kb el packaging en fagos lambda. Introducidos por infeccion en E. coli
Molécula de DNA que se origina de un virus, un plásmido o la célula de un organismo superior en la que otro fragmento de DNA de un tamaño apropiado puede ser integrado sin que el vector pierda su capacidad de auto-replicación
Los vectores introducen DNA en células hospederas, donde el DNA puede ser reproducido en grandes cantidades.
Gisella Orjeda Mayo 2006
Cromosomas Artificiales : para el map-based cloning
Vector Caracteristicas Talla-inserto
BACs: E.coli- Basado en el F factor ocurre natural 100-300 kb mente. Estable, 1-2 copias por celula
TACs Contain T-DNA (w vir genes) so can be 100-300 kb
BiBACs: transformed into plants via Agrobacterium
PACs: E.coli- Basado en el genoma del fago-bacteria 100-300 kb P1 (un virus)
YACs: Cel. levadura (50-100 veces mas volumen < 1,000 kb que E. Coli). Usualmente inestablestienen re-arreglos (1
Mb)
Gisella Orjeda Mayo 2006
Gisella Orjeda Mayo 2006
Vector requirements
• Marcador de selección – Resistencia a ampicilina, kanamicina, hygromicina,
herbicidas, etc.– Permite que solo los clones recombinantes
sobrevivan
• Sitios de clonamiento múltiple (mcs)– muchos (únicos) sitios de restricción
• Los vectores que amplifican en E. coli:– Origen de replicación (Ori): requerido por el
plasmido para replicarse en la bacteria– Control of copy number (F factor plasmid):
reduce el numero de copias del plásmido en una célula dada para evitar problemas de re-arreglos (quimeras)
Gisella Orjeda Mayo 2006
Tamaño del clon => tamaño de la genoteca
• Cálculo del numero de clones necesario para tener la probabilidad (P) de obtener una secuencia dada:
N = ln (1-P) / ln (1-f)
Donde f es la proporción del genoma en un clon y N es el numero de clones necesarios.
• Ejemplo– Cuantos clones BAC (con un inserto promedio de 150 kb) se
necesitan para tener una prob de 99% de contener todos los fragmentos génomicos posibles del tomate (talla del genoma 950,000 kb)?
– Con p < 0.01, N = 30,701 Con p < 0.05, N = 19,933
– Del Arroz (talla del genoma 430,000 kb)?
– Con p < 0.01, N = 13,199 Con p < 0.05, N = ??
Gisella Orjeda Mayo 2006
Gisella Orjeda Mayo 2006
Construcción de mapas físicos
• Los mapas físicos de construyen con arreglos continuos de clones con insertos grandes (YAC, BAC, PAC, etc) y alineándolos a un mapa de ligamiento genético
• Se hace el fingerprint (i.e.digestion con HindIII) de las genotecas grandes (10-20X) y los extremos de cada BAC se secuencian
• El patrón de restricción de los clones se aparea usando un programa que se llama FPC (fingerprint contig) que permite que los clones sean ensamblados en contigs
• Los Contigs se alinean a los mapas genéticos hibridándolos a marcadores o alineando informaticamente la secuencia de los marcadores a la secuencia de los BAC-end o YAC, PACS ETC.
Gisella Orjeda Mayo 2006
Fig. 2: Chen et al. (2002) The Plant Cell 14:537-545
Esto es un contig
Gisella Orjeda Mayo 2006
Fig. 1: Chen et al. (2002) The Plant Cell 14:537-545
Physical:Genetic map. Anchored BACs are shown in red, gaps in black, centromere in green.
Use of a relatively small number of genetically mapped markers is sufficient to anchor the BAC contigs to the genetic map. The gaps that remain usually consist of repetitive DNA that is either hard to clone or hard to sequence.
Strategy and status
November 2004
Sequencing Oryza sativachromosome 12
Chromosome 12 public data
• Genetic map 198 M– 6 non spécifiques
– 141 acc 5`
– 86 acc 3`
• Seq Bac-Ends Clemson
– 2 libraries (10.9X) :
HindIII
EcoRI
• FPC: rice.fpc Clemson fingerprinted Bacs
• Seq 11 Bacs (CNS)– markers
– Assigned to Contigs Clemson
• 322 EST mapped to K12
www.sanger.ac.uk/Software/Image
IMAGE
Duplication chr11-chr12 : 2.5 Mb
OSJNBa0009F13
OSJNBa0052H10
OSJNBA0039D03
BAC L
BAC F
BAC B
BAC A
BAC G
BAC I
BAC KBAC H
541 3 2
339 12 1 10
688 1 1 338 337 (7 clones séquencés affectés potentiellement au chr1) 336 1 1
335 14 3 (dont le H) 13
333 1 1 559 1 1 (K) 2
332 7 4 331 2 2
330 1 = 1 (I) 1
329 1 1
na 3 2
907 6 4
32 (ex 328) 3 1 (G) 2
489 5 1 4
326 6 1 (A) 3
343 4 3
679 2 2
14 1 (B) 1
325/978 8 2 (F et L) 8
298 chr11? (ex 299) 3 1 (E) 2
321/322 10 2 (C et D) 7 + 2
Contig de Clemson BACs Monsanto BACs Clemson BACs en MTP
19 94 15 (dont 11 CNS) 78
Strategy to determine the minimal tiling path
20Kb
Strategy to determine the minimal tiling path
OUR STRATEGY COMBINES
-Fingerprint Contig positioning by Blasts-Monsanto Bac positioning by Blasts- STC approach- Bac fingerprinting- Gap filling by Hybridisation
Minimum tiling path
RepeatMask Blasts ID > 95%
Blasts, Hybridationet Fingerprint
f r
BacEnds Clemson
markers
BACs Monsanto
BACs Genoscope
BAC participating at MTP
Fingerprint contig limitUnknown sequenceBac Clemson
Anchoring BACs and determining the minimal tiling path
Chromosome 12 Contig identification
Positioning Monsanto BACs on contigs
Sequencing strategy K12 rice
Hybridation
• Trois séries de filtres de haute densité (82944 clones)– 72 plaques 384 banque Clemson HindIII – 72+62 plaques 384 banque Clemson EcoRI +
10 plaques banque Monsanto
• 35mer Primer3
• [32P]dCTP
www.genome.clemson.edu/fpc/index.html
FPC takes as input a set of clones and their restriction fragments (called Bands) and assembles the clones into contigs.
SPOTTING de las dos genotecas e hibridación con los marcadores asignados al cromosoma 12
En una membrana de nylon de 20 cm x 20 cm se puede hacer el spotting de 72 placas de 384-pocillos cada una en duplicado
Por lo tanto 90% de los clones BAC pueden ser spotted
en tres membranas.
EL OBJETIVO ES ASIGNAR CLONES A LOS MARCADORESBASADOS EN LA HOMOLOGIA DE SECUENCIA
7
A
P
1 24
G
I II
III IV
V VI
2 6 12 2 3
1 10 4 11 12
9 6 10
7 8 11 3 5
1 5 9 4 8
A
P
1 24I II
III IV
V VI
G
2 6 12 2 3
1 10 4 11 12
9 6 7 10
7 8 11 3 5
1 5 9 4 8
Status physical mapping
• Number of markers used: 126• Number of anchored contigs: 37• 6 gaps closed with BacEnds from contig
extremities • Number of gaps 3 centromere and 2
telomeres
249/223 : 249/224250
S257
2
251
C15
56S
E603
77
252
R33
75G
1225
S105
20
405
G13
91
253 255a 107 257
E612
29
E300
09S
R61
7
S109
04
E603
77B
C61
563S
S107
04
C53
024S
S140
25
258 260 324 262 210 293 269
S131
26S
S100
43S
S143
6
E441
8S
C50
732S
E338
S
S116
79
C44
9S2
545
E324
6
E209
945
C20
8
C10
69
S861
L405
G14
06
R16
84
C90
1
Tel
263 264 265 266S1
0074
G40
2
C44
3
109K5K5
154
409
E605
56E6
0556
254
74
S132
87A
S132
87A
S620
5S6
205
259
S137
52
Updated 24/10/02
295
Chr 11- chr 12 DUPLICATION
C10
656S
C60
227S
R30
23R
3023
8.6
9.78.4 E508
28S
27.126.7 38.1
C11
324
C11
324
39.4 39.7
S473
6S4
736
40.6
42.741.2
C52
894
C52
894
E421
1E4
211
51.5
Y68
54R
51.851.8
C11
372
55.1 55.9 55.9 57.8
C11
831S
58.9 61.6
R10
818
R10
818
64.4
E404
7E4
047
E601
42E6
0142
E431
9E4
319
C53
919
C53
919
C53
903
C53
903
C01
85C
0185
E511
66E5
1166
S518
4S5
184
88.6
R17
09
91.4
C46
0
94.6
C87
95.1
R10
289S
R10
289S
S155
68S1
5568
E223
4E2
234
C52
936
R01
25R
0125
R40
38R
4038
97.397 99.7
C51
368
100.9 103.1100.9 109.5
Y28
24R
348
109.2
R17
59
107.4
S135
61
108.2
S110
76
108.7
:EST hyb.:EST hyb. :marker hyb.:marker hyb. :centromere:centromere:chr11:chr11:chr12:chr12
R22
19R
1869
E505
93S
E311
51SA
E288
9SC
S205
42S
R88
7
47 47 47.6 48.2 48.2 48.248.2 48.248.2 49.3
S215
11S
50.4
256C
6021
7C
6021
7
S647
7S6
477
S189
3S1
893
E100
37E1
0037
S162
19S1
6219
C52
663
C52
663
C30
362
C30
362
S144
274
S144
274
S104
11S1
0411
TelK8K8
325
339
375 281 b0070A21b0070A21 a0021D06a0021D06 b0074J13b0074J13
a0085J02a0085J02 Syd 393
49.3
434 255b
51.5
CENTROMERECENTROMERE
311 b0016C24b0016C24
a0017A21a0017A21 a0056I16a0056I16b0119N22b0119N22
71.2
Syd
a0028L05a0028L05
a0028L05a0028L05
40.3
PCRPCR
PCR
Syd
PCR
Syd : Syngenta data
GeneticGenetic mapmap
RiceRiceFPCFPCcontigscontigs
67.2 71.2 72.2 73 73 75.8 78.9
106.6
PCR
How we have eliminated gaps between contigs?
• Hybridisation with probes developed from BAC ends positioned at contig extremities
CHROMOSOME 12 SEQUENCING PROGRESS CHROMOSOME LENGHT 28.8 MbTILE LENGHT 27 MbTILE BACs 266 BACsSUBMITTED in PLN EMBL 214 BACsFINISHING 52 BACsGAPS 3 (centromere and 2 telomeres)
Nathalie CHOISNE, Gisella ORJEDA, Eric PELLETIER, Marcel SALANOUBAT, Jean WEISSENBACH and Francis QUETIERTech: Nadia DEMANGE, Agnes VIOLLET
GENOSCOPE and UMR 8030 GENOSCOPE/CNRS/Université d ’Evry, 2 Rue Gaston Crémieux CP 5706, 91057 EVRY Cedex, France
http://www.genoscope.cns.fr
The Team
Gisella Orjeda Mayo 2006
Tamaño comparativo (Bases)
(levadura cromosoma 3) 350 K
Escherichia coli (bacteria) 4.1 Millones
El mas grande cromosoma de levadura 5.8 Millones
Levadura entera 15 Millones
El cromosoma humano mas pequeño (Y) 50 Millones
El cromosoma humano mas grande(1) 250 Millones
El genoma humano entero 3 k Millones
Tallas de los genomas
Gisella Orjeda Mayo 2006
Gisella Orjeda Mayo 2006
• E.coli 4.1 Mb• Levadura 15 Mb• Arabidopsis 125 Mb• Drosophila 137 Mb• Arroz 420 Mb• Fugu 365 Mb• Soya 1,100 Mb• Pollo 1,200 Mb• Maiz 2,500 Mb• Raton 2,700 Mb• Humano 3,200 Mb• Cebada 4,800 Mb• Trigo 16,000 Mb• Pino 20,000+ Mb
Gisella Orjeda Mayo 2006
C-value paradox
• La talla del genoma no esta correlacionada con el numero • de genes o la complejidad biológica.
Species Physical size Genetic size Phys:Genetic Gene No. Arabidopsis 125 Mb 1200 cM 104 kb/cM 25,498 Rice 430 Mb 1800 cM 238 kb/cM ~50,000 Sorghum 760 Mb 1500 cM 500 kb/cM ~50,000 Tomato 950 Mb 1400 cM 680 kb/cM ?? Maize 2,500 Mb 1500 cM 1,660 kb/cM ~50-
100,000 Barley 5,300 Mb 1760 cM 3,000 kb/cM ~50,000
• Talla física de los genomas varia enormemente• Talla genética es mas o menos equivalente• Los grandes genomas tienen tasas talla-fisica: talla-genetica grandes• el numero estimado de genes varia y no es aun estable
18
Gisella Orjeda Mayo 2006
Primero, mapas de organismos modelo
Gisella Orjeda Mayo 2006
Que es un genoma modelo?Que es un genoma modelo?
• Interpretación de las agencias de financiamiento:
• Tiempo intergeneracional rápido, genoma pequeño, fácil de hibridizar (endo y cross) tamaño físico pequeño, en relación a especies importantes, fácilmente transformable, mapas genéticos y físicos de alta densidad.
11
Gisella Orjeda Mayo 2006
http://www.ncbi.nlm.nih.gov/
Gisella Orjeda Mayo 2006
Info en genomas secuenciadoshttp://www.genomesonline.org/
Gisella Orjeda Mayo 2006
http://www.ncbi.nlm.nih.gov/genome/guide/human/
Gisella Orjeda Mayo 2006
http://www.ensembl.org/
Gisella Orjeda Mayo 2006
Anotación
Gisella Orjeda Mayo 2006
Que hemos aprendido del genoma humano
• Tenemos 3164.7 million de bases nucleotídicas (A, C, T, and G). • El gen promedio tiene mas o menos 3000 bases, pero el tamaño
varian enormemente, el mas grande es el de distrofina con 2.4 million de bases.
• Se estima que el numero total de genes es de 30,000 —mucho menos que previos estimados de 80,000 a 140,000 que fueron basados en extrapolaciones de areas ricas en genessin contar las areas pobres.
• Casi todas (99.9%) las bases nucleotidicas son exactas en toda la gente.
• No conocemos las funciones del 50% de los genes descubiertos.
Gisella Orjeda Mayo 2006
Separar la paja del grano
• Menos del 2% de genoma codifica proteinas. • Las secuencias repetidas que no codifican por
proteinas ("junk DNA") forma por lo menos 50% del genoma humano.
• Se piensa que la secuencias repetidas no tienen una funcion directa pero ellas nos enseñan sobre la estructura y la dinamica cromosomica. En el tiempo los “repeats” re-modelan el genoma re-arreglandolo, creando nuevos genes y modificando y barajando los existentes.
Gisella Orjeda Mayo 2006
Como esta dispuesto
• El genoma tiene sectores geno-densos "urban centers" que estan compuestos predominantemente de G y C.
• En contraste los sectores geno-pobres so ricos en A y T. Estas regiones GC y AT pueden verse como bandas claras y oscuras en un cariotipo
• Los genes parecen estar concentrados en áreas al azar a lo largo del genoma con espacios vastos de DNA no codante entre ellos.
• Existen segmentos de hasta 30,000 C y G que se repiten una y otra vez en general alrededor de areas ricas en genes y que forman una barrera entre los gnees y el "junk DNA." Se piensa que estas islas CpG ayudan a regular la actividad génica.
• El cromosoma 1 es el que tiene mas genes (2968), y el Y, el que tiene menos (231).
Gisella Orjeda Mayo 2006
• El próximo paso: Functional Genomics
Gisella Orjeda Mayo 2006
• Investigando la relacion entre genotipo y fenotipo
• Organizacion del Genoma• Prediccion genica• Genomica comparative• Regulacion genica
Gisella Orjeda Mayo 2006
Aquí en Cayetano
• Positional cloning of 4HL stripe rust resistance quantitative trait loci in barley
• Genómica Funcional de las Variaciones Naturales en dos genes importantes para la calidad del fruto de la Chirimoya (Annona cherimolia)
• Identificación de genes y Eco-tilling para la resistencia durable a enfermedades de la cebada en Latinoamérica
• Differential Display (DD) para el descubrimiento de genes candidatos que participan en la tolerancia a sal y sequia.
• Hacia la Pesca y Analisis de Genes de Tolerancia a Sales, Sequia y Heladas en Granos Andinos por "Differential Display" y Real Time PCR
• Seleccion de Cepas de Acidiothiobacillus Ferrooxidans Productoras de Biofertilizantes por Ecotilling