Motivos y Dominios - tamps.cinvestav.mxertello/bioinfo/sesion09.pdf · Usando modelos estadísticos...
Transcript of Motivos y Dominios - tamps.cinvestav.mxertello/bioinfo/sesion09.pdf · Usando modelos estadísticos...
Motivos y Dominios
Jesús Fernández C.
Cinvestav-Zacatenco
19 de Junio del 2013
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 1 / 58
1 Motivos y DominiosIntroducciónIdenti�cación de motivos y dominios en alineamiento múltiple desecuenciasUsando expresiones regulares en las bases de datosUsando modelos estadísticos en las bases de datosDescubrimiento de motivos en secuencias no alineadasMotivos reguladores en secuencias de ADNPro�lesEl problema de hallar motivos.Motif Finding Problem.Median String Problem.Search TreesMotif ProblemMedian String Problem
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 2 / 58
Motivos y Dominios Introducción
1 Motivos y DominiosIntroducciónIdenti�cación de motivos y dominios en alineamiento múltiple desecuenciasUsando expresiones regulares en las bases de datosUsando modelos estadísticos en las bases de datosDescubrimiento de motivos en secuencias no alineadasMotivos reguladores en secuencias de ADNPro�lesEl problema de hallar motivos.Motif Finding Problem.Median String Problem.Search TreesMotif ProblemMedian String Problem
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 3 / 58
Motivos y Dominios Introducción
Introducción
Un aspecto importante de la caracterización de secuencias biológicasson los motivos y los dominios, ya que sirven para caracterizarfunciones de proteínas desconocidas.
Secuencias conservadas son secuencias biológicas similares o idénticasque pueden encontrarse en ácidos nucléicos, proteínas.
Un motivo es un elemento conservado en la secuencia de aminoácidoso nucleótidos, que habitualmente se asocia con una función concreta.Los motivos se generan a partir de alineamientos múltiples desecuencias con elementos funcionales o estructurales conocidos, por loque son útiles para predecir la existencia de esos mismos elementos enotras proteínas de función y estructura desconocida.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 4 / 58
Motivos y Dominios Introducción
Introducción
Un dominio es un término más genérico que designa una región de unaproteína con interés biológico funcional o estructural. También sellama dominio a una región de la estructura tridimensional de unaproteína con una función concreta, que incluye regiones nonecesariamente contiguas en la secuencia de aminoácidos.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 5 / 58
Motivos y DominiosIdenti�cación de motivos y dominios en alineamiento
múltiple de secuencias
1 Motivos y DominiosIntroducciónIdenti�cación de motivos y dominios en alineamiento múltiple desecuenciasUsando expresiones regulares en las bases de datosUsando modelos estadísticos en las bases de datosDescubrimiento de motivos en secuencias no alineadasMotivos reguladores en secuencias de ADNPro�lesEl problema de hallar motivos.Motif Finding Problem.Median String Problem.Search TreesMotif ProblemMedian String Problem
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 6 / 58
Motivos y DominiosIdenti�cación de motivos y dominios en alineamiento
múltiple de secuencias
Identi�cación de motivos y dominios en alineamiento
múltiple de secuencias
Los motivos y dominios son construidos a partir de un AMdS(Alineamiento múltiple de Secuencias) en las cuales, las secuenciasestá relacionadas entre sí.
Esto sirve para hallar las regiones conservadas.
Una vez halladas las regiones que se consideran motivos y dominios seprosigue a almacenar la información de consenso en una base de datospara que así sirvan como base en la identi�cación de las funciones deuna proteína desconocida que presente los mismos patrones.
Esto puede ser almacenado de dos formas:Expresiones regulares oMediante un modelo estadístico.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 7 / 58
Motivos y Dominios Usando expresiones regulares en las bases de datos
1 Motivos y DominiosIntroducciónIdenti�cación de motivos y dominios en alineamiento múltiple desecuenciasUsando expresiones regulares en las bases de datosUsando modelos estadísticos en las bases de datosDescubrimiento de motivos en secuencias no alineadasMotivos reguladores en secuencias de ADNPro�lesEl problema de hallar motivos.Motif Finding Problem.Median String Problem.Search TreesMotif ProblemMedian String Problem
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 8 / 58
Motivos y Dominios Usando expresiones regulares en las bases de datos
Usando expresiones regulares en las bases de datos
Una expresión regular es una manera concisa de representar unafamilia de secuencias por un string.
Cuando los dominios y los motivos son escritos en expresionesregulares se deben seguir las siguientes reglas.
Un aminoácido es conservado se debe escribir su código de letra.
Cuando una posición tiene varias alternativas de aminoácidos se
encierra entre corchetes todas las posibilidades.
Si no está especi�cado se escribe por una X.
Cada posición está ligada por un guión.
Finalmente si se repite un patrón se escribe entre paréntesis cuántas
veces se repite.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 9 / 58
Motivos y Dominios Usando expresiones regulares en las bases de datos
Usando expresiones regulares en las bases de datos
Ejemplo E − X (2)− [FHM]− X (4)− {P} − L.
Existen dos mecanismos para coincidir dos expresiones regulares: ExactMatching y Fuzzy Matching.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 10 / 58
Motivos y Dominios Usando expresiones regulares en las bases de datos
Usando expresiones regulares en las bases de datos
En el Exact Matching como su nombre lo indica no permite algunavariación en la secuencia del query, ésta manera de buscar tiene unaalta probabilidad de perder motivos relevantes que pueden tenerpequeñas variaciones.
En el Fuzzy matches, también llamado approximate matches, lascoincidencias son más �exibles entre residuos de propiedadesbioquímicas semejantes, éste método es capaz de incluir una mayorvariedad de formas de un motivo con una función conservada, sinembargo ésto incrementa el ruido y los falsos positivos.
Ejemplos: PROSITE y Emotif .
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 11 / 58
Motivos y Dominios Usando modelos estadísticos en las bases de datos
1 Motivos y DominiosIntroducciónIdenti�cación de motivos y dominios en alineamiento múltiple desecuenciasUsando expresiones regulares en las bases de datosUsando modelos estadísticos en las bases de datosDescubrimiento de motivos en secuencias no alineadasMotivos reguladores en secuencias de ADNPro�lesEl problema de hallar motivos.Motif Finding Problem.Median String Problem.Search TreesMotif ProblemMedian String Problem
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 12 / 58
Motivos y Dominios Usando modelos estadísticos en las bases de datos
Usando modelos estadísticos en las bases de datos
La mayor limitación de las expresiones regulares es que estos métodosno toman en cuenta la información de la probabilidad. Una expresiónregular tiene menos poder predictivo porque muchas secuencias con elmismo tipo de motivo no son representadas.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 13 / 58
Motivos y Dominios Usando modelos estadísticos en las bases de datos
Usando modelos estadísticos en las bases de datos
Al contrario de las expresiones regulares, se utilizan PSSMs (Positionspeci�c scoring matrices), per�les y HMMs (Hidden Makarov models)y preservan la información de la secuencia de un AMdS y lo expresancon modelos probabilísticos. Además, éstos modelos estadísticos tienenun mayor poder de predicción que los modelos basados en expresionesregulares, incluso aunque han sido obtenidos de un número reducidode secuencias. Ésta capacidad puede incrementar la sensibilidad deldescubrimiento de motivos y detectar secuencias divergentes pero queestén relacionadas.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 14 / 58
Motivos y Dominios Descubrimiento de motivos en secuencias no alineadas
1 Motivos y DominiosIntroducciónIdenti�cación de motivos y dominios en alineamiento múltiple desecuenciasUsando expresiones regulares en las bases de datosUsando modelos estadísticos en las bases de datosDescubrimiento de motivos en secuencias no alineadasMotivos reguladores en secuencias de ADNPro�lesEl problema de hallar motivos.Motif Finding Problem.Median String Problem.Search TreesMotif ProblemMedian String Problem
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 15 / 58
Motivos y Dominios Descubrimiento de motivos en secuencias no alineadas
Descubrimiento de motivos en secuencias no alineadas
Para un conjunto de secuencias que estén estrechamente relacionadas,se pueden encontrar motivos mediante el uso de AMdS, pero nosucede ésto cuando son distantes pero están relacionadas.
Para detectar estos motivos se necesitan algoritmos más especializadoscomo: Expectation maximation y Gibbs Motif sampling.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 16 / 58
Motivos y Dominios Descubrimiento de motivos en secuencias no alineadas
Descubrimiento de motivos en secuencias no alineadas
Puede ser usado para encontrar motivos ocultos. El método primerohace un alineamiento aleatorio de secuencias para generar un PSSMde prueba. Luego la prueba es usada para comparar cada secuenciaindividualmente. Se irán modi�cando las puntuaciones de la PSSM encada iteración para maximizar el alineamiento de la matriz a cadasecuencia.
Durante cada iteración la secuencia de patrones de los motivosconservados se irá reuniendo en el PSSM.
El problema radica en la convergencia prematura al alcanzar unóptimo local.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 17 / 58
Motivos y Dominios Descubrimiento de motivos en secuencias no alineadas
Descubrimiento de motivos en secuencias no alineadas
Éste método es muy similar al EM. Primero se hace un alineamientosobre todas las secuencias excepto una. Luego un se genera un PSSMde prueba, luego la matriz se alinea con la secuencia que se dejó fuera.La matriz de puntuaciones se ajusta para obtener el mejoralineamiento. Éste se procesó se repite hasta que ya no quede nadaque mejorar.
Éste método es menos susceptible a los mínimos locales.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 18 / 58
Motivos y Dominios Motivos reguladores en secuencias de ADN
1 Motivos y DominiosIntroducciónIdenti�cación de motivos y dominios en alineamiento múltiple desecuenciasUsando expresiones regulares en las bases de datosUsando modelos estadísticos en las bases de datosDescubrimiento de motivos en secuencias no alineadasMotivos reguladores en secuencias de ADNPro�lesEl problema de hallar motivos.Motif Finding Problem.Median String Problem.Search TreesMotif ProblemMedian String Problem
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 19 / 58
Motivos y Dominios Motivos reguladores en secuencias de ADN
Motivos reguladores en secuencias de ADN
Las moscas de fruta son susceptibles a infecciones de bacterias y otrospatógenos.Pero no tienen el sistema inmune tan so�sticado comonosotros. Ellos tienen un conjunto de genes inmunes que generalmentese encuentran dormidos en el genoma de la mosca los cuáles de algunamanera se despiertan y producen proteínas que destruyen el patógenoy generalmente curan la infección.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 20 / 58
Motivos y Dominios Motivos reguladores en secuencias de ADN
Motivos reguladores en secuencias de ADN
Si realizamos un experimento en el cual se contagian las moscas ymedimos cuales genes se despiertan como una respuesta inmune. Deeste conjunto de genes nos gustaría determinar que activa ese proceso.Éste proceso nos va a mostrar que los residuos TCGGGGATTTCC sonlos culpables de ésta activación. Éstas cadenas cortas llamadas NF-kBbinding sites, son importantes ejemplos de los motivos reguladores.Proteínas tales como los factores de transcripción están ligados a estosmotivos, Haciendo que el ARN polimerasa transcriba los genespreviamente dichos. Uno de los problemas es descubrir tales motivossin un conocimiento de como podrían verse.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 21 / 58
Motivos y Dominios Motivos reguladores en secuencias de ADN
Motivos reguladores en secuencias de ADN
Tomando en cuenta el experimento anterior va a devolver un conjuntode regiones de los genes en el genoma, cada región contiene al menosun NF-kB binding sites. Supongamos que no sabemos cual es elpatrón de NF-kB y tampoco sabes en que parte se encuentralocalizado en la muestra.
Por lo cual necesitamos un algoritmo que dado un conjunto desecuencias de un genoma, pueda encontrar subcadenas cortas queparezcan ocurrir seguido.
A pesar de que el DNA es complicado de descifrar, éste método esusado popularmente para encontrar motivos bajo la idea de quepalabras mas frecuentes o mas rara corresponden a los motivosreguladores en el ADN.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 22 / 58
Motivos y Dominios Motivos reguladores en secuencias de ADN
Motivos reguladores en secuencias de ADN
Figura: Texto encriptado
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 23 / 58
Motivos y Dominios Motivos reguladores en secuencias de ADN
Motivos reguladores en secuencias de ADN
Figura: Texto parcialmente desencriptado
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 24 / 58
Motivos y Dominios Pro�les
1 Motivos y DominiosIntroducciónIdenti�cación de motivos y dominios en alineamiento múltiple desecuenciasUsando expresiones regulares en las bases de datosUsando modelos estadísticos en las bases de datosDescubrimiento de motivos en secuencias no alineadasMotivos reguladores en secuencias de ADNPro�lesEl problema de hallar motivos.Motif Finding Problem.Median String Problem.Search TreesMotif ProblemMedian String Problem
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 25 / 58
Motivos y Dominios Pro�les
Pro�les
Supongamos que se presentan 7 nucleótidos de tamaño 32 generadosaleatoriamente. También se da otro conjunto pero con el patrónsecreto p = ATGCAATCT y de tamaño l = 8 implantado en unaposición aleatoria. Supongamos que tampoco conocemos el patrón Po donde la secuencia es implantada. La tarea es hallar P analizando lasecuencia de ADN.
Una de las maneras de hacer esto es buscar todas las cadenas delongitud l que aparezcan en el conjunto, seria muy raro hallar ese tipode cadenas dado el azar(7 veces o mas) por lo cual podemos concluirque es el patrón p que estamos buscando.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 26 / 58
Motivos y Dominios Pro�les
Pro�les
Figura: Ejemplos de secuencias
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 27 / 58
Motivos y Dominios Pro�les
Pro�les
Para hacer mas difícil el problema podemos hacer que ADN mute encierto nucleótidos, como por ejemplo tomando los NF-kB binding sitesTCGGGGATTTCC , y se da un conjunto donde cada cadena cambiamuy poco.
Esto se complica ya que la búsqueda de la cadena de tamaño 8 norevela ninguna patrón y la cadena ATGCAACT no aparece ni una solavez.
Por lo cual es necesario que queremos por �motivo� . Ya que permitirque un solo string represente un motivo generalmente falla alrepresentar las variaciones de los patrones en la vida real sin embargouna representación de un motivo puede ser hecho por una matriz deper�les.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 28 / 58
Motivos y Dominios Pro�les
Pro�les
Figura: Nucleótidos mutados y la obtención del Patrón
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 29 / 58
Motivos y Dominios Pro�les
Pro�les
Figura: Secuencia con mutaciones
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 30 / 58
Motivos y Dominios Pro�les
Pro�les
Lo que se realiza es lo siguiente, consideremos que un conjunto de tsecuencias de ADN, cada una tiene n nucleótidos. Selecciona unaposición de esas t secuencias,y así formar un array s = (s1, s2, ..., st ,con 1 <= si <= n − l + 1. Éstas cadenas de tamaño l pueden seragrupadas en una matriz, la cual será la matriz de per�les y despuésde un consenso se halla que el string de consenso es ATGCAACT quees el patrón P.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 31 / 58
Motivos y Dominios Pro�les
Pro�les
Figura: Selección del consenso
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 32 / 58
Motivos y Dominios El problema de hallar motivos.
1 Motivos y DominiosIntroducciónIdenti�cación de motivos y dominios en alineamiento múltiple desecuenciasUsando expresiones regulares en las bases de datosUsando modelos estadísticos en las bases de datosDescubrimiento de motivos en secuencias no alineadasMotivos reguladores en secuencias de ADNPro�lesEl problema de hallar motivos.Motif Finding Problem.Median String Problem.Search TreesMotif ProblemMedian String Problem
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 33 / 58
Motivos y Dominios El problema de hallar motivos.
El problema de hallar motivos.
Si P(s) denota la matriz de per�les correspondiente a las posicionesde inicio s, entonces podemos usar Mps(j) para denotar como elmayor número en la columna j de P(s).
Mientras que la puntuación de consenso está dada por la suma detodos los Mps(j), éste score puede se usado como una medida de quetan fuerte es un per�l correspondiendo las posiciones de inicio de s.
Un consenso de la puntuación lt corresponde al mejor alineamientoposible, en el cual cada �la de una columna tiene la misma letra. Sinembargo un consenso de lt/4 corresponde al peor alineamiento posible.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 34 / 58
Motivos y Dominios El problema de hallar motivos.
El problema de hallar motivos.
En la forma más sencilla el problema de hallar el motivo se formulacomo la selección de las posiciones iniciales de s.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 35 / 58
Motivos y Dominios Motif Finding Problem.
1 Motivos y DominiosIntroducciónIdenti�cación de motivos y dominios en alineamiento múltiple desecuenciasUsando expresiones regulares en las bases de datosUsando modelos estadísticos en las bases de datosDescubrimiento de motivos en secuencias no alineadasMotivos reguladores en secuencias de ADNPro�lesEl problema de hallar motivos.Motif Finding Problem.Median String Problem.Search TreesMotif ProblemMedian String Problem
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 36 / 58
Motivos y Dominios Motif Finding Problem.
Motif Finding Problem.
Dado un conjunto de secuencias encontrar el conjunto de l-mers. unopor cada secuencia, que maxímice las puntuaciones.Input: Una matriz t × n de ADN.Output: Un arreglo de t que contienen posiciones inicialess = (s1, s2, ..., st) que maxímize Score(s,DNA).
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 37 / 58
Motivos y Dominios Motif Finding Problem.
Motif Finding Problem.
Otra forma de ver el problema es en formular el problema como sifuera un problema de hallar un String mediano. Dado dos l-mers v yw , podemos computar la distancia de Hamming entre ellos, como elnúmero de posiciones que di�eren en los dos string.
Forzando la notación podemos calcular la distancia de hamming totalentre v y s, dH(v , s), para hallar la distancia mínima de hammingentre un string v y cualquier set es un problema sencillo.
Primero uno tiene que encontrar la mejor coincidencia para v en laprimer secuencia de ADN, luego la segunda y así sucesivamente.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 38 / 58
Motivos y Dominios Median String Problem.
1 Motivos y DominiosIntroducciónIdenti�cación de motivos y dominios en alineamiento múltiple desecuenciasUsando expresiones regulares en las bases de datosUsando modelos estadísticos en las bases de datosDescubrimiento de motivos en secuencias no alineadasMotivos reguladores en secuencias de ADNPro�lesEl problema de hallar motivos.Motif Finding Problem.Median String Problem.Search TreesMotif ProblemMedian String Problem
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 39 / 58
Motivos y Dominios Median String Problem.
Median String Problem.
Dado un conjunto desecuencias de ADN, encontrar el string mediano.Input: Una matriz At × n de ADN, y l la longitud del patrón.Output: Un string v de l nucleótidos que minimize la distancia totalentre v ,ADN, sobre todos los strings de esa longitud.
Una vez calculado el string medio del ADN puede ser usado paragenerar un pro�le que resuelva el problema de busqueda de motivos.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 40 / 58
Motivos y Dominios Search Trees
1 Motivos y DominiosIntroducciónIdenti�cación de motivos y dominios en alineamiento múltiple desecuenciasUsando expresiones regulares en las bases de datosUsando modelos estadísticos en las bases de datosDescubrimiento de motivos en secuencias no alineadasMotivos reguladores en secuencias de ADNPro�lesEl problema de hallar motivos.Motif Finding Problem.Median String Problem.Search TreesMotif ProblemMedian String Problem
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 41 / 58
Motivos y Dominios Search Trees
Search Trees
Como hemos visto hasta ahora para resolver los problemas de hallar elmotivo y encontrar la cadena mediana, es necesario manejar una grancantidad de información ((n − l + 1)ty k l )
En general puede ser visto como un todos los kL L-mers, la siguientesubrutina NextLeaf muestra como saltar de un L-mer a otro através deuna progresión.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 42 / 58
Motivos y Dominios Search Trees
Search Trees
Figura: Espacio de busqueda para hallar los mejores s
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 43 / 58
Motivos y Dominios Search Trees
Search Trees
Figura: Espacio de busqueda para hallar la cadena mediana
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 44 / 58
Motivos y Dominios Search Trees
Search Trees
NEXTLEAF(a, L, k)1 for i ← L to 12 if ai < k
3 ai ← ai + 14 return a
5 ai ← 16 return a
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 45 / 58
Motivos y Dominios Search Trees
Search Trees
Utilizando este algoritmo podemos producir todas las hojas de un L-mercon el algoritmo a continuación.ALL LEAVES(L, k)
1 a← (1, ..., 1)2 while forever3 output a4 a←NEXTLEAF(a, L, k)5 if a = (1, 1, ..., 1)6 return
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 46 / 58
Motivos y Dominios Search Trees
Search Trees
Estas hojas pueden ser utilizadas para construir un árbol como el siguiente.
Figura: Arbol con k = 2 y l = 4
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 47 / 58
Motivos y Dominios Search Trees
Search Trees
PREORDER(v)1 output v2 if v has children3 PREORDER ( left child of v )4 PREORDER ( rigth child of v )
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 48 / 58
Motivos y Dominios Search Trees
Search Trees
Una manera iterativa de hacer esto es la siguiente.NEXTVERTEX(a, i , L, k)
1 if i < L
2 ai+1 ← 13 return (a, i + 1)4 else5 for j ← L to 16 if aj < k
7 aj ← aj + 18 return (a, j)
9 return (a, 0)
Cuando i > L, nos movemos hacia abajo en el árbol. Si i = L y j < k nosmovemos a los lados del árbol, pero k = j nos movemos hacia atrás, elproceso acaba cuando todo el árbol es explorado.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 49 / 58
Motivos y Dominios Motif Problem
1 Motivos y DominiosIntroducciónIdenti�cación de motivos y dominios en alineamiento múltiple desecuenciasUsando expresiones regulares en las bases de datosUsando modelos estadísticos en las bases de datosDescubrimiento de motivos en secuencias no alineadasMotivos reguladores en secuencias de ADNPro�lesEl problema de hallar motivos.Motif Finding Problem.Median String Problem.Search TreesMotif ProblemMedian String Problem
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 50 / 58
Motivos y Dominios Motif Problem
Motif Problem
El algoritmo de fuerza bruta quedaría como el siguiente.BRUTEFORCEMOTIFSEARCH(ADN, t, n, l)
1 bestScore ← 02 for each (s1, ..., st) from (1, ..., 1) to (n − l + 1, ..., n − l + 1)3 if Score(s,ADN) > bestScore
4 bestScore ← Score(s,ADN)
5 bestMotif ← (s1, s2, ..., st)6 return bestMotif
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 51 / 58
Motivos y Dominios Motif Problem
Motif Problem
Para encontrar un mejor método podemos utilizar el método de selecciónpara encontrar todos los posiblesL-mer.BRUTEFORCEMOTIFSEARCHAGAIN(ADN, t, n, l)
1 s ← (1, 1, ..., 1)2 bestScore ← Score(s,ADN)
3 while forever4 s ← NEXTLEAF(s, t, n − l + 1)5 if Score(s,ADN) > bestScore
6 bestScore ← Score(s,ADN)
7 bestMotif ← (s1, s2, ..., st)8 if s = (1, 1, ..., 1)9 return bestMotif
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 52 / 58
Motivos y Dominios Motif Problem
Motif Problem
O en su defecto podemos utilizar el algoritmo de NextVertex para generarun árbol.SIMPLEMOTIFSEARCH(ADN, t, n, l)
1 s ← (1, 1, ..., 1)2 bestScore ← 03 i ← 04 while i > 05 if i < t
6 (s, i)←NEXTVERTEX(s, i , t, n − l + 1)7 else8 if Score(s,ADN) > bestScore
9 bestScore ← Score(s,ADN)10 bestMotif ← (s1, s2, ..., st)11 (s, i)←NEXTVERTEX(s, i , t, n − l + 1)12 return bestMotif
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 53 / 58
Motivos y Dominios Motif Problem
Motif Problem
Podemos observar de los resultados para hallar la mejor puntuacion. Porejemplo si al primeras i posiciones de inicio t son un per�l débil, puede queno sea necesario seguir analizando esa rama, ya que lo más probable es quelos per�les que se puedan generar no sean mejores que los per�les quegeneren las otras ramas.BRANCHANDBOUNDMOTIFSEARCH(ADN, t, n, l)
1 s ← (1, 1, ..., 1)2 bestScore ← 03 i ← 04 while i > 05 if i < t
6 optimisticScore ← Score(s, i ,ADN) + (t − i)l
7 if optimisticScore < bestScore
8 (s, i)← BYPASS(s, i , t, n − l + 1)
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 54 / 58
Motivos y Dominios Motif Problem
Motif Problem
1 else2 (s, i)←NEXTVERTEX(s, i , t, n − l + 1)3 else4 if Score(s,ADN) > bestScore
5 bestScore ← Score(s,ADN)
6 bestMotif ← (s1, s2, ..., st)7 (s, i)←NEXTVERTEX(s, i , t, n − l + 1)8 return bestMotif
Con esto el algoritmo es mejorado para algunas instancias, pero no todas,el peor caso sigue siendo exponencial.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 55 / 58
Motivos y Dominios Median String Problem
1 Motivos y DominiosIntroducciónIdenti�cación de motivos y dominios en alineamiento múltiple desecuenciasUsando expresiones regulares en las bases de datosUsando modelos estadísticos en las bases de datosDescubrimiento de motivos en secuencias no alineadasMotivos reguladores en secuencias de ADNPro�lesEl problema de hallar motivos.Motif Finding Problem.Median String Problem.Search TreesMotif ProblemMedian String Problem
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 56 / 58
Motivos y Dominios Median String Problem
Median String Problem
Se pueden aplicar los mismo metodos que se aplicaron para mejorar elproblema de motivos, pero ahora con respecto a la mediana, el algoritmooptimizado sería el siguiente.BRANCHANDBOUNDMEDIANSEARCH(ADN, t, n, l)
1 s ← (1, 1, ..., 1)2 bestScore ←∞3 i ← 04 while i > 05 if i < l
6 pre�x ←nucleotide string corresponding to (s1, s2, ..., si)7 optimisticDistance ← TOTALDISTANCE(pre�x ,ADN)
8 if optimisticDistance > bestDistance
9 (s, i)← BYPASS(s, i , t, 4)
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 57 / 58
Motivos y Dominios Median String Problem
Median String Problem
1 else2 (s, i)←NEXTVERTEX(s, i , t, 4)3 else4 word ←nucleotide string corresponding to (s1, s2, ...sl)5 if TOTALDISTANCE(word ,ADN) < bestDistance
6 bestDistance ← TOTALDISTANCE (word ,ADN)
7 bestWord ← word
8 (s, i)←NEXTVERTEX(s, i , t, n − l + 1)9 return bestWord
Como en el caso anterior, el algoritmo no provee una mejora en el peor delos casos, pero hace un incremento en general a la aceleración.
Jesús Fernández C. (Cinvestav) Motivos y Dominios 19 de Junio del 2013 58 / 58