Gene finding: Software de predicción de genes
description
Transcript of Gene finding: Software de predicción de genes
Gene finding:
Software de predicción de genes
Gene finding:
Software de predicción de genes
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• Secuenciación de cada vez mas Genomas809 genomas completos en mayo del 2008
53 archeas, 662 bacterias, 94 ecuariotas
(GOLD: Genomes OnLine Database)
• Secuenciación de cada vez mas Genomas809 genomas completos en mayo del 2008
53 archeas, 662 bacterias, 94 ecuariotas
(GOLD: Genomes OnLine Database)
INTRODUCCIÓN
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• Diferenciar entre: secuencia funcional funcionalidad de un gen o
producto génico
• Diferenciar entre: secuencia funcional funcionalidad de un gen o
producto génico
Gene findingGene finding
Computacional:• Grandes bases de datos
• Algoritmos de búsqueda
• Automatización
Regiones grandes (Genomas)
Muchos organismos
Muchos (posibles) genes
Computacional:• Grandes bases de datos
• Algoritmos de búsqueda
• Automatización
Regiones grandes (Genomas)
Muchos organismos
Muchos (posibles) genes
INTRODUCCIÓN
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
Experimental:• Cultivos
• Hibridaciones
• Recombinación y Mapas Genéticos
Regiones Concretas
Organismos Concretos
Genes Concretos
Experimental:• Cultivos
• Hibridaciones
• Recombinación y Mapas Genéticos
Regiones Concretas
Organismos Concretos
Genes Concretos
PREomics POSTomics
Gene findingGene finding
Computacional:• Grandes bases de datos
• Algoritmos de búsqueda
• Automatización
Regiones grandes (Genomas)
Muchos organismos
Muchos (posibles) genes
Computacional:• Grandes bases de datos
• Algoritmos de búsqueda
• Automatización
Regiones grandes (Genomas)
Muchos organismos
Muchos (posibles) genes
INTRODUCCIÓN
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
Experimental:• Cultivos
• Hibridaciones
• Recombinación y Mapas Genéticos
Regiones Concretas
Organismos Concretos
Genes Concretos
Experimental:• Cultivos
• Hibridaciones
• Recombinación y Mapas Genéticos
Regiones Concretas
Organismos Concretos
Genes Concretos
POSTomics
+
Gene findingGene finding
ESTRATEGIAS ACTUALES
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• Métodos de similaridad• Métodos de similaridad
• Métodos Ab Initio• Métodos Ab Initio
• Genómica Comparativa• Genómica Comparativa
Gene findingGene finding
ESTRATEGIAS ACTUALES
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• Métodos de similaridad• Métodos de similaridad( Lookup , Evidence based or Extrinsec Methods )
• Comparación de Secuencia y Búsquedas por similaridad(Blast, CLUSTAL)
• Alineamiento con Proteínas
• Alineamiento con mRNA/cDNA
• Alineamiento con ESTs
• Comparación Intra-genómica
• Comparación Inter-genomica (Genómica Comparativa)
Gene findingGene finding
ESTRATEGIAS ACTUALES
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• Métodos de similaridad• Métodos de similaridad
Nucleic Acids Res. 30:4103-4117, 2002.
Gene findingGene finding
ESTRATEGIAS ACTUALES
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• Métodos de similaridad• Métodos de similaridad
✓✓
✗✗• Capacidad limitada para encontrar nuevos genes, se estima que se pueden Encontrar el 50% de genes.
“Nada será encontrado si la base de datos no contiene suficientes secuéncias similares”
• ESTs solo dan información parcial ya que solo reflejan una parte de un mRNA • Exones pequeños no son detectados (problema también en ab initio)
• Resultados bastante sólidos al estar basados en evidencia• Comparaciones intra-genómicas aportan información de genes parecidos (familias génicas) • ESTs / cDNAs dan mucha información sobre divisiones Exon/Intron, y exonesusados o no en splicing alternativo
Gene findingGene finding
ESTRATEGIAS ACTUALES
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• Métodos de similaridad• Métodos de similaridad
• Métodos Ab Initio• Métodos Ab Initio
• Genómica Comparativa• Genómica Comparativa
Gene findingGene finding
ESTRATEGIAS ACTUALES
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• Métodos Ab Initio• Métodos Ab Initio( Intrinsec, Signal , Template Search )
Métodos totalmente computacionales basados en
la busca de patrones o secuencias consenso.
El “Gene Prediction” real.
• Estratégias:- Secuencias consenso y ORFs
- Estadísticos (Codon Bias) y Matrices de puntuación
- Arboles de decisión (HMM - Hiden Marcov Models)
- Otros…
• Típos de software:- Predicción de estructura
- Detección de Exones/Intrones
- Detección de lugares de splicing
- Detección de otras senyales
Gene findingGene finding
ESTRATEGIAS ACTUALES
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• Métodos Ab Initio• Métodos Ab InitioSecuencias consenso y ORFs
Tipos de Señales:
• Señales Promotoras• Señales Inicio de Transcripción• Lugares de Splicing (Intrones/Exones)• Lugares de poli(A)• Sitios de unión de TFs
www.cbs.dtu.dk
Gene findingGene finding
ESTRATEGIAS ACTUALES
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• Métodos Ab Initio• Métodos Ab InitioSecuencias consenso y ORFs
✓✓
✗✗• Métodos muy útiles en procariotas, pero no tanto en eucariotas con estructuras de genes complejas (ejemplo ORFs)
• Incluso en procariotas, podemos encontrar genes solapando con otros genes• Secuencias consenso , por si solas no son 100% fiables en todas las bases
• Aproximación muy rápida, que puede definir posteriores procesos• Paso previo de ORFs necesario
Gene findingGene finding
ESTRATEGIAS ACTUALES
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• Métodos Ab Initio• Métodos Ab InitioEstadísticos y Matrices
Estadísticos:
• Codon Bias• K-meros: Hexameros, etc…• Otros…
✗✗
✓ ✓ • Puntuaciones, índices, valores…de fácil tratamiento computacional• Codon Bias puede ser muy indicativo para separar regiones codificantes del resto
Las matrices y estadísticos provienen de datos previos, se deben de optimizar. Se puede hacer a partir de los datos propios pero requiere iteraciones
• Trainig Sets (matrices, codones, secuencias señal…)
Gene findingGene finding
ESTRATEGIAS ACTUALES
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• Métodos Ab Initio• Métodos Ab InitioHMM – Hidden Markov Models
• Método estadístico (bayesiano demostrar hipotesis cierta )• No se conoce previamente el estado de un grupo de elementos observado (Hidden state)• Mediante arboles de decisiones, se intenta inferir el estado del elemento a partir de lo observado
✗✗
✓ ✓ • (Muy) Usado en eucariotas, donde las señales consenso no están tan claramente definidas
• Cualquier algoritmo de este tipo necesita de datos previos para poder tener un “criterio” y poder hacer decisiones. Resultan necesarios mecanismos de autoaprendizaje
Gene findingGene finding
ESTRATEGIAS ACTUALES
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• Métodos Ab Initio• Métodos Ab InitioOtras Aproximaciones
• Autoaprendizaje (SPV – Suport Vector Machines)• Redes Neurales• Estructuras secundarias del mRNA• …
Gene findingGene finding
ESTRATEGIAS ACTUALES
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• Métodos Ab Initio• Métodos Ab Initio
• Autoaprendizaje (SPV – Suport Vector Machines)• Redes Neurales• Estructuras secundarias del mRNA• …
Gene findingGene finding
ESTRATEGIAS ACTUALES
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• Métodos de similaridad• Métodos de similaridad
• Métodos Ab Initio• Métodos Ab Initio
• Genómica Comparativa• Genómica Comparativa
Gene findingGene finding
ESTRATEGIAS ACTUALES
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• Genómica Comparativa• Genómica Comparativa• Algún software especializado (Rosetta para Humano y Ratón, SPG1 para Vertebrados y
Angiospermas)
• Aproximación Mixta: (intentar buscar genes representativos del grupo de organismos estudiado)
1- Usar evidencia experimental (por homologia)
· Protein Coding cDNA
· Similaridad con proteinas
2- Predicción ab Initio
3- Filtro de los resultados para descartar redundancia,
pseudogeneso errores
4- Ampliar con otras fuentes de evidencia (ESTs,…)
Gene findingGene finding
ESTRATEGIAS ACTUALES
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
✗✗• Software principalmente centrado en regiones que codifican para proteinaPor el momento otras secuencias que transcriben son poco tratadas.
• Definido a priori que un gen es la región que transcribe entre señal de inicio y final
• Poco consenso entre los desarrolladores, falta de standards definidos (GFF – General Feature Format). Programas confusos para el usuario
• Detalles a mejorar su detección:- Genes solapantes (por extremo 3’ o genes dentro de intrones)- Genes Policistrónicos (varios genes codificados en un mRNA)- Frameshifts (perdida de nucleótidos en la secuenciación o bases de datos)- Intrones en secciones no codificantes / Exones no traducidos- Exones pequeños (estructuras secundarias)- Sitios de splicing no canonicos- Procesados alternativos:
- Otros inicios de transcripción- Splicing alternativo- Sitios de Poly(A) diferentes- Otros inicios de traducción: AUG alternativos / no-AUG
(poca consideración a casos “menores”)
Gene findingGene finding
ESTRATEGIAS ACTUALES
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
✓✓• Combinación de métodos ofrece resultados más fiables
• Puede facilitar pasos previos a la experimentación
• Imprescindible para genomas que , quizás, NUNCA serán estudiados experimentalmente
Gene findingGene finding
TEST DE SOFTWARE
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
Programas a prueba:Programas a prueba:
• GenMark-hmm
• GENSCAN
• GeneID
• GenMark-hmm
• GENSCAN
• GeneID
•Genscan se usó en el Proyecto Genoma Humano y en elGenoma del Ratón
•Genscan y GenMark-hmm tienen las mejores valoracionesen pruebas de este tipo de software
•Los tres tienen interface web
Gene findingGene finding
TEST DE SOFTWARE
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• GenMark-hmm• GenMark-hmm
- Desde 1993
- Instituto tecnológico de Georgia, patrocinadopor IBM
- Varios programas: Procariotas, Eucariotas,Heuristicos, EST y cDNA …
GenMark-hmm : Usa Hidden Markov Modelsy selftraining
Gene findingGene finding
TEST DE SOFTWARE
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• GENSCAN• GENSCAN
- Desde 1997
- Dep. Matemáticas de la Universidad De Stanford
- (web) Vertebrados, arabidopsis, maíz.
Usa Hidden Markov Modelsy se basa en información de doble cadena
Gene findingGene finding
TEST DE SOFTWARE
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• GENEID• GENEID- Desde 2000 (paper en Drosophila)
- Universitat Pompeu Fabra / CRG
- Datos para varios organismos, van publicando nuevos sets periodicamente
- Permite añadir datos externos (GFF)
- Opcion de output en formato GFF
- Web muy explicativa
Usa 3 passos:
1. Deteccion de señales: Splicing, start-stop codons, matrices de puntuación2. Usa los datos anteriores en un modelo HMM3. Integrar todo en una predicción de la estructura
Gene findingGene finding
TEST DE SOFTWARE
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
• BRCA1 (Pan troglodytes)• BRCA1 (Pan troglodytes)
- Cromosoma 17
- Splicing alternativo
- 85 kb
- 24 exons (22 coding)
Exon 11 3427 bp
El resto entre 37-311bp
- Proteina 1863 aa
Evolution of the tumor suppressor BRCA1 locus in primates: implications for cancer predisposition Adam Pavlicek , Vladimir N. Noskov et alt.Human Molecular Genetics 2004
13(22):2737-2751; doi:10.1093/hmg/ddh301
Gene findingGene finding
TEST DE SOFTWARE
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
Output GeneMark-hmmOutput GeneMark-hmm
2 genes (4 y 7 exones)
Gen 1: 1246aaGen 2: 350aa
Gene findingGene finding
TEST DE SOFTWARE
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
Output GENSCANOutput GENSCAN
2 genes (4 y 7 exones)
1 gen ( 16 exones ) 1707aa
Gene findingGene finding
TEST DE SOFTWARE
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
Output GENSCANOutput GENSCAN
2 genes (3 y 6 exones)
Gen 1: 1229 aaGen 2: 323 aa
Gene findingGene finding
INFORMACIÓN COMPLEMENTARIA
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
http://www.genefinding.org/
http://www.nslij-genetics.org/gene/programs.html
Gene findingGene finding
REFERENCIAS
Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB
Evaluation of gene prediction software using genomic dataset: application to Arabidopsis thaliana sequences . Pavy N, Rombauts S et alt. BioinformaticsVol 15 no 11 1999. 887-899
Evaluation of Gene-Finding Programs on Mammalian SequencesSanja Rogic, Alan K. Mackworth and Francis B.F. Ouellette . Genome Res. 2001 11: 817-832
Current methods of gene prediction, their strengths and weaknessesCatherine Mathé, Marie-France Sagot, Thomas Schiex and Pierre Rouzé. Nucleic Acids Res. 30:4103-4117, 2002.
In search of the small ones: improved prediction of short exons in vertebrates, plants, fungi and protists. Yvan Saeys, Pierre Rouze and Yves Van de Peer. Vol. 23 no. 4 2007, pages 414–420 doi:10.1093/bioinformatics/btl639
Gene findingGene finding