Pre Tesis Ejemplo

download Pre Tesis Ejemplo

of 45

Transcript of Pre Tesis Ejemplo

Universidad Nacional de Ingeniera Facultad de Ingeniera Industrial y de Sistemas Escuela Profesional de Ingeniera de Sistemas Pre-Tesis presentada para obtener el grado de

Ingeniero de Sistemas

An lisis de la Similitud de Secuencias Mitocondriales a mediante Algoritmos Computacionalespor Salas Coz Erwin Erasmo 20050053E

Lima - Peru Noviembre de 2008

An lisis de la Similitud de Secuencias a Mitocondriales mediante Algoritmos ComputacionalesSalas Coz Erwin Erasmo 21 de diciembre de 2008

De Salas Coz, Erwin Erasmo: Dedico esta tesis a mis padres Erasmo y Rosario por su gran esfuerzo dedicado a mi persona.

An lisis de la Similitud de a Secuencias Mitocondriales mediante Algoritmos ComputacionalesSalas Coz Erwin Erasmo 20050053E

Facultad de Ingeniera Industrial y de Sistemas, 2008 Asesor de Tesis: Mag. Samuel Oporto Daz

El presente trabajo pretende analizar dos algoritmos presentes en el mundo de la computaci n abocados a la soluci n del problema del nivel de similitud o o de secuencias g nicas. Los algoritmos analizados son el conocido algoritmo de e Needleman-Wunsch y el del arbol de sujos de Weiner. Estos algoritmos ser n a evaluados seg n su eciencia de espacio y de tiempo los cuales ser n implemenu a tados en MATLAB y usar n como muestras la base de datos de ADN mitocondrial a de GenBank y Human Mitochondrial Data Base.

Analysis of Exacting Matching of Mithocondrial Sequences using Computational AlgorithmsSalas Coz Erwin Erasmo 20050053E

Faculty of Industrial Engineering and Systems, 2008Major Professor: Samuel Oporto Daz, Msc

This work tries to analyse two current algorithms used for solving the matching genetic strings problem. The algorithms analysed are the classical NeedlemanWunsch algorithm and the sufx tree algorithm of Weiner. These algorithms will be tested their space and time efciency, they will be coded in MATLAB and using the mitochobdrial DNA from GenBank data base and Human Mitochondrial Data Base.

Indice general1. Introducci n y Planteamiento del Problema o 1.1. Introducci n . . . . . . . . . . . . . . . o 1.2. Descripci n de la situaci n problem tica o o a 1.3. Descripci n del problema . . . . . . . . o 1.4. Objetivo de la Investigacion . . . . . . . 1.4.1. Objetivo superior . . . . . . . . 1.4.2. Objetivo principal . . . . . . . 1.4.3. Objetivos especcos . . . . . . 1.5. Justicaci n . . . . . . . . . . . . . . . o 1.6. Alcances y Limitaciones . . . . . . . . 1.6.1. Alcances de la Investigaci n . . o 1.6.2. Limitaciones de la Investigaci n o 8 8 11 12 13 13 13 13 14 14 14 14 15 16 16 17 17 18 18 18 19 19 19

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

2. Revisi n de la bibliografa o 2.1. Teora G nica . . . . . . . . . . . . . . . . . . . . e 2.1.1. ADN . . . . . . . . . . . . . . . . . . . . 2.1.2. Transcripci n y traducci n . . . . . . . . . o o 2.1.3. Replicaci n Gen tica . . . . . . . . . . . . o e 2.1.4. Polimorsmo de Nucle tido Simple (SNP) o 2.1.5. Genoma Mitocondrial . . . . . . . . . . . 2.1.6. Genoma Humano . . . . . . . . . . . . . . 2.2. Taxonoma . . . . . . . . . . . . . . . . . . . . . 2.2.1. Alineamiento de secuencias . . . . . . . . 2.2.2. Clasterizaci n Jer rquica . . . . . . . . . . o a

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

3. Base de Datos de ADN Mitocondrial 20 3.1. Fuente de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.2. Estructura de los datos . . . . . . . . . . . . . . . . . . . . . . . 20 4

3.3. Descripci n de los datos . . . . . . . . . . . . . . . . . . . . . . o 4. Modelo de soluci n o 4.1. Modelo de soluci n . . . . . . . . . . . . . . . . . . . . . . o 4.1.1. Denici n de Notaciones y Conceptos B sicos . . . o a 4.1.2. Explicaci n de los Algoritmos . . . . . . . . . . . . o 4.1.3. An lisis de la Eciencia Te rica . . . . . . . . . . . a o 4.1.4. Medici n de la distancia de Levenhstein y Hamming o

20 21 21 21 21 21 21

. . . . .

. . . . .

. . . . .

5. Denici n de Notaciones y Deniciones B sicas o a 22 5.1. Denici n de Notaciones y Conceptos B sicos . . . . . . . . . . 22 o a 6. Explicaci n de los Algoritmos o 25 6.1. Algoritmo de Needleman-Wunsch . . . . . . . . . . . . . . . . . 25 6.2. Algoritmo de Weiner . . . . . . . . . . . . . . . . . . . . . . . . 30 7. Evaluaci n Te rica o o 35 7.1. Medidas de eciencia de un algoritmo . . . . . . . . . . . . . . . 35 7.2. Eciencia en Tiempo del Algoritmo de Needleman-Wunsch . . . 36 7.3. Eciencia en Tiempo del Algoritmo de Weiner . . . . . . . . . . 36 8. Medici n de la distancia de Levenhstein y Hamming o 38 8.1. Distancia de Hamming . . . . . . . . . . . . . . . . . . . . . . . 38 8.2. Distancia de Levenshtein . . . . . . . . . . . . . . . . . . . . . . 39 9. Conclusiones 40 9.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 9.2. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 9.3. Trabajos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5

Indice de cuadros6.1. Alineamiento de dos secuencias. . . . . . . . . . . . . . . . . . . 25 6.2. Matriz de sustituci n. . . . . . . . . . . . . . . . . . . . . . . . . 26 o 8.1. Distancia de Hamming . . . . . . . . . . . . . . . . . . . . . . . 8.2. Distancia de Levenshtein . . . . . . . . . . . . . . . . . . . . . . 38 39

6

Indice de guras1.1. Lista de algoritmos con sus eciencias de tiempo y espacio [16]. . 2.1. Dogma central de la biologa. . . . . . . . . . . . . . . . . . . . . 6.1. 6.2. 6.3. 6.4. 6.5. Comienzo del llenado de la matriz M. . . . . Proceso del llenado completo de la matriz M . Trazado del pathway o trazo de alineamiento Arbol de Sujos para S . . . . . . . . . . . . Formaci n del arbol T1 a partir de T2 . . . . . o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 16 27 27 28 31 33

7

Captulo 1 Introducci n y Planteamiento del o Problema1.1. Introducci n o

La similitud de secuencias es un problema ampliamente estudiado en la bioinform tica [5], debido a su importancia como procedimiento para establecer evolua ci n de las especies, variabilidad gen tica [4], herencia, identicaci n de deleo e o ciones, inserciones y sustituci n en las secuencias los cuales pueden ser las deo nominadas polimorsmo de nucle tido simple (SNP) asociados a diferentes eno fermedades [8, 14, 1]. Existen otras aplicaciones importantes [16, 5] como la b squeda y recuperaci n u o de texto, la cual es la b squeda de un una palabra que es un string en un texu to, la dicultad se acrecienta cuando puede haber variaciones ortogr cas, era rores de escritura o variaciones sint cticas como un sustantivo pluralizado o una a variaci n de este que es la b squeda de palabras y frases en la internet mediante o u buscadores. La detecci n de intrusos y virus que atacan a un sistema y software de o aplicaci n. Adem s tenemos el ensamblaje de segmenteos, agrupamientos, proceo a samiento XML, minera de datos, an lisis tog nico, homologas funcionales y a e estructurales, cromatografa, etc. Para proceder a averiguar la similitud de secuencias exiten varios algoritmos los cuales pueden ser agrupados en: 1. Emparejamiento exacta de secuencias. 2. Emparejamiento aproximado de secuencias. 8

Para el problema del emparejamiento exacto de secuencias se tienen algoritmos como el Z algoritmo de Guseld [5] ,b squeda de T ndem exactos , preproceu a samiento de secuencias en arboles de sujos [5], el algoritmo de Boyer-Moore , el algoritmo de Knuth-Morris y otros. Para el problema de emparejamiento aproximado tenemos varios tipos de algoritmos , entre los cuales podemos citar a la programaci n din mica [10] , aut matas o a o nitos [3], ltradores [3], mayor subsecuencia com n aproximada, b squeda de u u t ndem repetidos aproximados [11] [17], algoritmos que usan la distancia de Leva enhstein [9], algoritmos que usan la distancia de Hamming [6] y distancia de episodios. Especcamente los algoritmos m s conocidos tenemos al algoritmo de a Needleman-Wunsch [10], el algoritmo de Smith-Waterman [13], FASTA, BLAST y otros. Tambi n se tienen otros tipos de algoritmos y t cnicas computacionales como e e redes neuranales [7], algoritmos gen ticos [7], m todos estoc sticos [12], algoe e a ritmos de aprendizaje [7] y otras t cnicas relacionadas a la inteligencia articial e [7]. La evaluaci n de estos algoritmos se realiza mediante el an lisis de su ecieno a cia O() en espacio y tiempo esto se puede ver en la Figura 1.1 en la que se lista una serie de algoritmos y sus eciencias en espacio y tiempo as como a qu tipo de e famila de algoritmos procede, adem s un aspecto importante a evaluar es qu tan a e preciso es el alineamiento que proponen los algoritmos de programaci n din mio a ca, aut matas nitos, redes neuronales, algoritmos gen ticos y otros algoritmos o e usados para el problema de emparejamiento aproximado de secuancias. En el marco de la bioinform tica las secuencias de ADN a analizar est n cona a stitudas de caracteres denotado como A, G, C y T, los cuales respectivamente representan a la Adenina, Guanina, Citosina y Tiamina, tambi n existen otras see cuencias como las de ARN y de protenas los cuales se conforman de otro grupo de caracteres, pero pueden ser analizadas mediante las mismas t cnicas con cone sideraciones de tama o ya que en este aspecto dieren. n En el presente trabajo se pretende evaluar y comparar dos algoritmos descritos anteriormente los cuales son: 1. Un algoritmo de programaci n din mica: El algoritmo de Needleman-Wunsch o a [10]. 2. Un algoritmo de procesamiento de secuencias: El algoritmo de Weiner [5].

9

Figura 1.1: Lista de algoritmos con sus eciencias de tiempo y espacio [16]. 10

En lo que respecta al contenido de los captulos en el captulo 2 se aborda la teora gen tica necesaria para el comprendimiento de las secciones posteri e ores as como un acercamiento a los algoritmos usados en el campo de la bioin form tica para su posterior profundizaci n. a o Se hace un breve revisi n de la bibliografa, una exposici n de los conceptos o o necesarios para entender el tema abordado como lo ADN, los nucle tidos y su o importancia, la transcripci n, la traducci n, el polimorsmo de nucle tido simple, o o o el genoma humano y mitocondrial. En el captulo 3 se muestra las fuentes de datos a usar para el proceso de la ex perimentaci n las cuales guardan las secuencias de ADN mitocndrial de la NCBI o y HMDB, se detalla la estructura de los mismos, su disponibilidad, los mecanismos de acceso a estas bases de datos, la procedencia, los proyectos involucrados y su almacenamiento. En el captulo 4 se presenta el modelo de soluci n el cual constar de cuatro o a secciones el conceptos y notaciones b sicas, el alineamiento y el c lculo de la a a signicancia estadstica la cual dir el grado de diferencia de las secuencias. a En el captulo 5 se presenta el procedimiento 1 en el que se presenta las nota ciones y conceptos b sicos usados durante el an lisis de los algoritmos a a En el captulo 6 se presenta el procedimiento 2 que es la explicaci n detallada o de los algoritmos a usarse para poder manejar las largas secuencias presentes en el ADN mitocondrial. En el captulo 7 se presenta el procedimiento 3 en el que se presenta los c lcu a los usados para medir la eciencia de los algoritmos. En el captulo ?? se presenta el procedimiento 4 en el cual se determinar las variables las cuales ser n medidas para determinar la efectividad de los algorita mos. En el captulo 9 se presenta las conclusiones, recomendaciones y trabajos fu turos que se pueden plantear a partir de los resultados de esta investigai n. o

1.2.

Descripci n de la situaci n problem tica o o a

Los procedimiento algortmicos para la evaluaci n de similitud de secuen o cias biol gicas como el ADN nuclear, ADN mitocondrial, ARN, protenas, etc. o Se tienen en diferentes familias las cuales resuelven el problema en diferentes tiempos y espacio de ejecuci n usados seg n qu variante del problema se deo u e sea resolver, por tal motivo comparar los diferentes algoritmos procedentes de diferentes familias es importante para saber c mo se comporta estos algoritmos o 11

con secuencias como del ADN mitocondrial, ya que estos ultimos se encuentran inmersos en diferentes investigaciones debido a su amplia vinculaci n con enfero medades gen ticas como el Parkinson , Alzeimer , diabetes , c ncer de pr stata , e a o c ncer de mama y otros . a

1.3.

Descripci n del problema o

Los algoritmos que abordan el problema de la similitud de secuencias se tienen en diferentes tiempos y espacio de ejecuci n (una lista de algoritmos de la familia o de m s larga subsecuencias com n ver Figura 1.1) y se usan para distintas varia u antes del problema principal, adem s si tomamos en cuenta los algoritmos que a abordan el problema de emparejamiento aproximado de secuencias toman diferentes criterios para decidir qu alineamiento es el indicado. Entonces qu tiempo e e y espacio de ejecuci n son los indicados? adem s qu criterio de decisi n es el o a e o apropiado? es lo que se formula en el contexto del ADN mitocondrial ante esto el problema radica en c mo proceder para comparar los algoritmos de similitud de o secuencias de ADN mitocondrial?. En el marco de lo descrito se proceder a comparar dos algoritmos, que a critea rio de estar entre los m s comunmente usados [5], procedente de diferentes famila ias de algoritmos, los cual estos ser n sus representates, se evaluar qu tan simia a e lares son sus alineamientos y grados de similitud de secuencias es decir qu escala e correspondiente le otorga cada algoritmo, por lo que de esta manera se proceder a a su comparaci n. o Los algoritmos a comparar son: 1. Un algoritmo de programaci n din mica: El algoritmo de Needleman-Wunsch o a [10] el cual pertenece a la familia de la programaci n din mica y m s geno a a eralmente los de tipo emparejamiento aproximado. 2. Un algoritmo de procesamiento de secuencias: El algoritmo de Weiner [5] que procede de los algoritmos de generaci n de arboles de sujos el cual da o un formato que mejora el tiempo de procesamiento de varios algoritmos [5] [12].

12

1.4.1.4.1.

Objetivo de la InvestigacionObjetivo superior

Dise ar qu combinaci n de algoritmos son los que abordar n los problemas n e o a computacionales a los que est involucrado el ADN mitocondrial. a

1.4.2.

Objetivo principal

Identicar cu l algoritmo es el que logra la mejor distancia de Hamming y a Levenshtein adem s como la mejor eciencia O() en el tiempo y espacio de ejea cuci n. o

1.4.3.

Objetivos especcos

Los objetivos especcos son los sigueintes: 1. Investigar sobre algoritmos m s comunmente usados en bioinform tica. a a 2. Desarrollar y explicar los algoritmos de Needleman-Wunsch y Weiner. 3. Mostrar ejemplos de los algoritmos. 4. Identicar la base de datos adecuada para la evaluaci n de los algoritmos. o 5. Investigar la bibliograa correpondiente para la implementaci n de los alo goritmos. 6. Desarrollar los algoritmos a comparar en MATLAB para su evaluaci n y o an lisis. a 7. Ejecutar los algoritmos usando las base de datos elegidas. 8. Recopilar la informaci n estadstica de cada producto obtenido de los algoo ritmos. 9. Medir las distancias de Hamming y Levenshtein de los alineamientos obtenidos. 10. Comparar los resultados obtenidos entre los dos algoritmos. 11. Identicar cual es el que tiene el mejor desempe o seg n los plantemientos n u jados. 13

1.5.

Justicaci n o

Existen enfermedades relacionadas a las variaciones que pueden presentar el ADN mitoncondrial como el Parkinson, Alzeimer, diversos c nceres, diabetes, y a otras enfermedades. Para lo cual el procedimiento para distinguir e identicar las caractersticas propias de cada ADN mitocodrial seg n la enfermedad a analizar u se procede computacionalmente para lo cual se necesita de algoritmos ecientes en tiempo y espacio para los investigadores de las ramas de biologa, medicina, qumica y otros. De esta manera se aporta al desarrollo de productos nales los cuales podr n reparar el ADN mitocondrial mediante drogas , medicamentos u a otros procedimientos para as disminuir el n mero de personas afectadas por los u males antes mencionados.

1.6.1.6.1.

Alcances y LimitacionesAlcances de la Investigaci n o

Est limitado por los dos algoritmos a analizar procedentes de diferntes famila ias de algoritmos y las bases de datos utilizadas que son GenBank y HMDB.

1.6.2.

Limitaciones de la Investigaci n o

Principalmente la cantidad de algoritmos analizados, ya que en el mundo de la bioinform tica existen diversos algoritmos que abordan el problema de simila itud de secuencias como ya explicado en la introducci n, adem s la cantidad de o a datos a analizar no puede ser lo suenciente debido a que sera necesario una base de datos de diferentes grupos humanos para postular una comparaci n general o de los algoritmos. Adicionalmente los recursos computacionales debido a que en los importantes centros de investigaci n de bioinform tica se tiene la disponibilio a dad de supercomputadores para el procesamiento optimo de los algoritmos en los experimentos.

14

Captulo 2 Revisi n de la bibliografa o Desde la d cada de los 60s se ha estado desarrollando la bioinform tica mee a diante el cual se aplica la tecnologa de la computaci n a la gesti n y an li o o a sis de datos biol gicos en el que abarcan diferentes t cnicas como inform tica, o e a matem tica aplicada, estadstica, ciencia de la computaci n, inteligencia articial, a o qumica y bioqumica. La tarea exhaustiva que tienen los investigadores en esta materia se incluyen en los siguientes campos: An lisis de secuencias, la labor est en analizar la secuencia de ADN coa a mo las deleciones, inserciones y sustituciones los cuales pueden asociarse a enfermedades, caracteres g nicos, historia de evoluci n, etc. e o Anotaci n de genomas, mediante el cual se anotan los genes y sus caraco tersticas para posteriores investigaciones hechas por bi logos, bioqumicos o y otros. Biologa evolutiva computacional, es el estudio de los ancestros de las es pecies para dibujar mapas gen ticos. e An lisis de expresi n g nica, mediante el cual se compara por ejemplo el a o e material gen tico de un tejido a analizar con uno canceroso para determinar e diferencias, patrones y similitudes. Los principales conceptos de gen tica involucrada en la bioinform tica son e a desarrollados a continuaci n. o

15

2.1.2.1.1.

Teora G nica eADN

Es un acido nucleico que contiene instrucciones gen ticas usada en el desare rollo y el funcionamiento de todos los organismos vivos y algunos virus. Tiene como papel principal ser portador y transmisor de informaci n gen o La informaci n en el ADN es copiada a cada c lula de su progenie durante o e el proceso de la replicaci n, las porciones de ADN, los genes, son copiadas por o mensajeros de ARN durante un proceso denominado transcripci n por enzimas o llamadas ARN polimerasa. Estos mensajes son traducidos por mol culas ensame bladoras llamadas ribosomas. Seg n lo anterior descrito, la informaci n gen tica uye desde el ADN al ARN u o e a la protena, esto es conocido como el dogma central de la biologa.

Figura 2.1: Dogma central de la biologa. Con respecto a la composici n del ADN est compuesto de una larga secueno a cia de nucle tidos conformados por az cares y grupos fosfato unidos por enlaces o u de tipo ester. Conectado a cada az car se encuentran los cuatro tipos de mol cuu e las llamadas bases nitrogenadas. Es esta disposici n de bases la forma c mo es o o almacenada la informaci n, as como en las computadoras personales toda la ino formaci n esta codicada en n meros binarios 0 y 1 lo es de este modo en los o u seres vivos. La lectura de esta secuencia es dada por el c digo gen tico. o e La localizaci n de la mol cula de ADN se encuentra en estructuras llamadas o e cromosomas, estas son las que intervienen en el proceso de replicaci n. o Las cuatro bases nitrogenadas que se encuentran mayoritariamente en el ADN son: Timina, representado por la letra T. Siempre se empareja con la Adenina de la cadena complementaria. Citosina, denominado con la letra C en el c digo gen tico, Siempre se emo e pareja con la Guanina en la cadena complementaria. Guanina, en el c digo gen tico G. Siempre emparejado con la Citosina. o e 16

Adenina, representado por la letra A en el c digo gen tico. Siempre emo e parejada con la Timina. La secuencia de ADN est conformada por aproximadamente 3 mil millones a de bases, en aproximadamente 200 000 a 250 000 genes.

2.1.2.

Transcripci n y traducci n o o

En un gen, la secuencia de nucle tidos a lo largo de una hebra de ADN se o transcribe a un ARN mensajero (ARNm) y esta secuencia a su vez se traduce a una protena que un organismo es capaz de sintetizar o expresar en uno o varios momentos de su vida, usando la informaci n de dicha secuencia. o La relaci n entre la secuencia de nucle tidos y la secuencia de amino cidos o o a de la protena viene determinada por el c digo gen tico, que se utiliza durante el o e proceso de traducci n o sntesis de protenas. La unidad codicadora del c digo o o gen tico es un grupo de tres nucle tidos (triplete), representado por las tres lee o tras iniciales de las bases nitrogenadas (por ej., ACT, CAG, TTT). Los tripletes del ADN se transcriben en sus bases complementarias en el ARN mensajero, y en este caso los tripletes se denominan codones (para el ejemplo anterior, UGA, GUC, AAA). En el ribosoma cada cod n del ARN mensajero interacciona con o una mol cula de ARN de transferencia (ARNt o tRNA) que contenga el triplete e complementario, denominado anticod n. Cada ARNt porta el amino cido correo a spondiente al cod n de acuerdo con el c digo gen tico, de modo que el ribosoo o e ma va uniendo los amino cidos para formar una nueva protena de acuerdo con a las nstruccionesde la secuencia del ARNm. Existen 64 codones posibles, por lo cual corresponde m s de uno para cada amino cido; algunos codones indican a a la terminaci n de la sntesis, el n de la secuencia codicante; estos codones de o terminaci n o codones de parada son UAA, UGA y UAG. o

2.1.3.

Replicaci n Gen tica o e

El proceso de replicaci n de ADN es la base de la herencia del material o gen tico. Se basa en la duplicaci n de la informaci n gen tica y su posterior die o o e visi n, ya que en toda c lula que va a dividirse la cromatina debe duplicarse para o e poder repartirse por igual en cada una de las c lulas hijas. Para ello las dos cae denas complementarias que componen la doble h lice de ADN (mol cula madre) e e deben separarse para poder formar dos nuevas cadenas, cada una de las cuales es complementaria a una de las cadenas de la mol cula madre. e 17

Este tipo de duplicaci n de ADN se llama replicaci n semiconservativa, porque o o cada una de las dos mol culas hijas contiene la mitad (una de las cadenas de ADN) e de la mol cula madre. La duplicaci n semiconservativa tiene lugar precisamente e o por el hecho de que la secuencia de las bases que la constituyen se conserva, de forma que la secuencia de cada mol cula madre sirve de molde para formar la e secuencia de dos mol culas hijas. e

2.1.4.

Polimorsmo de Nucle tido Simple (SNP) o

El polimorsmo de nucle tido simple o SNP es una variaci n de la secuencia o o de ADN que afecta a un solo nucle tido (A, G, C o T) del genoma. Una de estas o variaciones debe de darse en al menos un porciento para ser considerado como SNP. Los SNP forman hasta el 90 por ciento de todas las variaciones gen micas o humanas, y aparecen cada 100 a 300 bases en promedio, a lo largo del genoma humano. Dos tercios de los SNP corresponden a la sustituci n de una citosina (C) o por una timina (T). Estas variaciones en la secuencia del ADN pueden afectar a la respuesta de los individuos a enfermedades, bacterias, virus, productos qumicos, f rmacos, etc. a El polimorsmo de nucle tido simple est siendo ampliamente estudiado en o a el proyecto mundial HapMap, en la que trabajan cientcos de Jap n, el Reino o Unido, Canad , China, Nigeria, y los Estados Unidos. a

2.1.5.

Genoma Mitocondrial

La mitocondria es una organela presente en las c lulas, su funci n princie o pal es el de producir energa y respiraci n en la c lula. Aunque tambi n tiene o e e una peque a cantidad de material gen tico llamado ADN mitocondrial, contiene n e alrededor de 16 500 bases, es decir los nucle tidos. El ADN mitocondrial contiene o 37 genes, es decir los bloques de bases, trece de estos genes proveen instrucciones para hacer enzimas envueltas en la fosforilaci n oxidativa. o

2.1.6.

Genoma Humano

Consiste en todo el conjunto de genes conformado en el ser humano, los cuales son los 22 cromosomas (autosomas) y 2 cromosomas sexuales. Conformado de aproximadamente 3 200 millones de bases (3200Mb) con un total de 20 000 a 25 000 genes. Aunque la ultima cifra no est del todo clara, ya que se considera un a 18

gen como un conjunto de bases, pero los investigadores no se ponen de acuerdo en que forma deben de estar agrupadas.

2.2.

Taxonoma

Los algoritmos podemos clasicarlo en el siguiente modo:

2.2.1.

Alineamiento de secuencias

En este caso el problema se reere a encontrar las ocurrencias de una muestra P en una secuencia S. Ambos son secuencias las cuales pueden ser de nucle tidos o o amino cidos, dependiendo que si es ADN o una protena lo que se est anala a izando. El alineamiento tambi n es realizado por secuencias de dos muestras que e pueden ser del mismo o aproximado tama o. n 1. Programaci n din mica: Tales como el algoritmo de Needleman-Wunsch o a [10], el cual busca la mejor soluci n generando un pathway en una matriz o de m por n. La complejidad del algoritmo esta dado por O(mn) y con mejo ramientos realizado con el arbol de substring 0(m + n) 2. Aut matas nitos: Se dene una serie de secuencias las cuales debe pasar o la secuencia en cuestion y seg n el nivel de correpodencia se logra alinear. u 3. Filtraci n: Filtra previamente a las secuencias, las cuales pueden tener otros o caracteres no pertenecientes al alfabeto o estar en un orden el cual no debe estar.

2.2.2.

Clasterizaci n Jer rquica o a

Este m todo es usado para determinar la relaci n evolutiva de base de datos e o agrup ndolos en arboles y jerarquas. a El m todo (UPGMA) Se trata de una distancia basada en el m todo que e e trabaja sobre una matriz de las distancias (o similitudes) entre pares de objetos. Puede ser aplicado esencialmente a cualquier situaci n en la que las distancias son o aditivas. En la bioinform tica, que se utiliza en muy diversas tales como las aplicaa ciones de construcci n arboles evolutivos y an lisis de microarray de la expresi n o a o g nica de datos. e

19

Captulo 3 Base de Datos de ADN Mitocondrial3.1. Fuente de Datos

Las fuentes de datos son recopiladas de National Center for Biotecnology Information (NCBI) especcamente de la base de datos Genbank, la disponibilidad de estos datos es libre en internet el cual se puede acceder directamente desde MATLAB o descargando de su sitio web. El comando a usarse para acceder al GenBank es getgenbank() desde MATLAB. Tambi n de Human Mitochondrial Data Base (HMDB) [2], el cual contiene e ADN mitocondrial de diferentes tipos de enfermedades entre las cuales esta de enfermos de Parkinson tambi n siendo su uso libre y descargable de su sitio web. e

3.2.

Estructura de los datos

La estructura de los datos son en forma de cadena de caracteres, los cuales son ledos directamente desde MATLAB mediante el ToolBox de Bioinformatica

3.3.

Descripci n de los datos o

Los datos son procesados en MATLAB el cual maneja estas cadenas de caracteres internamente facilitando el proceso de los algoritmos implementados

20

Captulo 4 Modelo de soluci n o4.1. Modelo de soluci n o

En base a los trabajos realizados anteriormente y los objetivos planteados el modelo soluci n tiene la siguiente estructura: o

4.1.1.

Denici n de Notaciones y Conceptos B sicos o a

En esta secci n se presenta las notaciones y deniciones b sicas para la explio a caci n de los algoritmos. o

4.1.2.

Explicaci n de los Algoritmos o

En esta secci n se detalla los algoritmos a analizar y medir. o

4.1.3.

An lisis de la Eciencia Te rica a o

En esta parte lo que se realiza es evaluar te ricamente los algoritmos, esto o mendiante la eciencia de tiempo y espacio.

4.1.4.

Medici n de la distancia de Levenhstein y Hamming o

Se realiza la medici n de las distancia de Levenhstein y Hamming como evalo uador del desempe o de aplicar los algoritmos. n

21

Captulo 5 Denici n de Notaciones y o Deniciones B sicas aPara la explicaci n de los algoritmos y procedimientos a evaluar se usa una o notaci n generalmente usada en la mayora de las referencias bibliogr cas reo a visadas las cuales se muestra acontinuaci n. o

5.1.

Denici n de Notaciones y Conceptos B sicos o a

El smbolo = signica igualdad, es decir si se presenta a = b se lee a es igual a b, adem s el smbolo := signica asignaci n, es decir si se presenta a := b se a o lee el valor de b se asigna a a . Sea = {0, 1, ..., k 1} un alfabeto jo de tama o k. Sea n el conjunto n de todas las secuencias de tama o n sobre el alafabeto . Adem s n puede ser n a denido recursivamente por: n+1

n = , = n , n 0,

Donde denota sequencia vaca que es lo mismo decir una secuencia carente de smbolo alguno. Las sequencias tambi n pueden denominarse strings [5]. Si e tenemos la secuencia s procedente del conjunto n , se dene como la longitud de la secuencia n y denotada por: |s| = n.

22

denota el conjunto de las secuencias de cualquier tama o sobre . Adem s si n a i 1 y i n entonces s(i) o si denota el caracter de la posici n i comenzando o de izquierda a derecha. Deniciones, donde n = |s|: 1. Sea s una secuencia sobre n , se dene a v como subsecuencia, de s si hay m ndices consecutivos i1 < < im tal que: v1 = si1 , . . . , vm = sim v puede ser denotado como Si1 im o como S [i1 . . . im ]. 2. Se dene a v como prejo de s si hay m ndices consecutivos 1 < < m tal que: v1 = s1 , . . . , vm = sm (5.2) 3. Se dene a v como sujo de s si hay m ndices consecutivos n m < < n tal que: v1 = snm , . . . , vm = sn (5.3) 4. Una inserci n es la adici n de un caracter en una secuencia s, es decir v o o est inserto en la posici n i en la secuencia s de longitud si: a o si := v luego j > i y j n + 1 sj := sj1 obteniendose un nuevo s con |s | = n + 1. 5. Una deleci n es la extracci n de un caracter en una secuencia s, es decir el o o caracter de la posici n i sufri una deleci n si: o o o j i y j n 1 sj := sj+1 obteniendose un nuevo s con |s | = n 1. 6. Una sustituci n es el cambio de un caracter por otro proveniente del mismo o alfabeto , es decir el caracter de posici n i sufri una sustituci n si: o o o si := v / v y v = si (5.6) (5.5) (5.4) (5.1)

23

7. La concatenaci n de dos secuencias u y v denotada por el operador + sobre o el conjunto est denida por: a cat := u + v = u1 u2 . . . u|u1| u|u| v1 v2 . . . v|v1| v|v| (5.7)

8. La alineaci n o alineamiento de dos secuencias u y v sobre el conjunto o es una funci n de inserci n Alinear () tal que inserta caracteres a o o u y v para que |u| = |v|. Los resultados de obtenidos aplicar Alinear () sobre u y v depender n del algoritmo usado para dicho n, los algoritmos a de alineamiento buscan la mejor o m xima similitud de las dos secuencias a por lo que la inserci n de es realizada buscando dicho objetivo. o {u , v } := Alinear (u, v) |u | = |v | Donde: u := u1 . . . . . . . . . u|u| y v := v1 . . . . . . . . . v|v| . (5.8)

24

Captulo 6 Explicaci n de los Algoritmos o6.1. Algoritmo de Needleman-Wunsch

Este algoritmo formulado en 1970 por Needleman y Wunsch [10] es la base de muchos otros realizados en el alineamiento de secuencias desde su publicaci n o hasta la actualidad, es un algoritmo de la familia de la programaci n din mica o a en la que la soluci n presentada es la mejor seg n una serie de restricciones, no o u obstante no es la mejor soluci n ya que depende de los indicadores de eciecia o los cuales en este caso es la tabla de sustituci n. o Sea el alfabeto = {A, G, C, T } sobre el cual denimos dos cadenas s1 = GAAT T CAGT T A y s2 = GGAT CGA. El objetivo del algoritmo es alinearlos de tal forma que pueda identicarse deleciones, inserciones o cambios en los caracteres de las secuencias. Para el ejemplo un alineamiento es el siguiente: G A X G G A A T T C T C A G G T T A A

Cuadro 6.1: Alineamiento de dos secuencias. Seg n el alineamiento realizado en la tabla 6.1 el primer, el tercer, el quinto, u el sexto, el octavo y el und cimo caracter est n correctamente alineados mientras e a que el segundo ha sufrido una sustituci n y las restantes existieron deleciones o tambi n denominadas gap o huecos. e El algoritmo de Needleman-Wunsch busca generar el alineamiento para lo cual coloca todas las posibles combinaciones de las dos secuencias s1 y s2 m s a 25

una la y columna de ceros para la generaci n de la recursividad, en una matriz M . o Deniendo a n = |s1| y m = |s2| entonces la matriz M ser de (m + 1)(n + 1). a Por lo que entonces en la posici n i n + 1 se encuentra el i 1 esimo o nucle tido s1i1 de la secuencia s1 y en la posici n j m + 1 se encuentra el o o j 1 esimo nucle tido s2j1 de la secuencia s2, entonces Mi,j representa la o combinaci n de s1i1 y s2j1 . o Luego el procedimiento indica en rellenar la matriz M para lo cual primero denimos una matriz S de semejanza de caracteres (o en este caso particular de nucle tidos). o A G C T A 1 0 0 0 G 0 1 0 0 C T 0 0 0 0 1 0 0 1 0 0 0 0

Cuadro 6.2: Matriz de sustituci n. o La matriz mostradas en la tabla 6.2 en la m s simple matriz de sustituci n que a o puede construirse por considerar 1 a la concidencia exacta y 0 a la no coincidencia y 0 cuando hay un hueco o gap, ya que los actuales programas como FASTA o BLAST usan matrices m s complejas las cuales son construdas seg n criterios a u de semejanza qumica, fsica u otros entre las mol culas en cuesti n. e o Si denimos Si,j como una funci n tal que devuelve la similitud de los caraco teres de la posici n i de s1 y j de s2 y a W como la penalizaci n por gap que en o o este caso es simplemente 0, tendremos listo las funciones necesarias para llenar la matriz M . Para proceder a rellenar todos los casilleros de M tendr n la siguiente a ley de formaci n: Mi,j = M aximo (Mi1,j1 + Si,j ; Mi,j1 + W ; Mi1,j + W ) o Donde: Mi1,j1 + Si,j : Indica la coincidencia o no coincidencia de los caracteres de las secuencias. Mi,j1 + W : Indica la suma en horizontal m s la penalizaci n por gap. a o Mi1,j + W : Indica la suma en vertical m s la penalizaci n por gap. a o Gr camente podr ser visto m s f cilmente: a a a a Inicializado con la primera la y columna como se muestra la gura 6.1 por ceros para usarlo en la primera iteraci n, seguido el valor de M2,2 se calcula: o 26

(a) Inicializaci n de la matriz (b) Llenado de la primera celo da

Figura 6.1: Comienzo del llenado de la matriz M. M1,2 = 0 y S2,2 = 1 Mi1,j1 + Si,j = 1 M2,1 = 0 y W = 0 Mi,j1 + W = 0 M1,2 = 0 y W = 0 Mi1,j + W = 0 Y el siguiente c lculo M aximo (1, 0, 0) = 1 M2,2 := 1. a

(a) Progreso de llenado

(b) Matriz M rellenada

Figura 6.2: Proceso del llenado completo de la matriz M El llenado por ejemplo de M2,3 calculamos previamente: M1,3 = 0 y S2,3 = 0 Mi1,j1 + Si,j = 0 M2,2 = 1 y W = 0 Mi,j1 + W = 1 M1,3 = 0 y W = 0 Mi1,j + W = 0 Y el siguiente c lculo M aximo (0, 1, 0) = 1 M2,3 := 1. As sucesivamente a hasta llenar toda la matriz M . El procedimiento siguiente es describir el pathway que se dibuja desde el extremo inferior derecho de la matriz M y se avanza a la izquierda arriba tomando siempre el mayor de las opciones precedentes, es decir el mayor en la columna, vertical y diagonal precedente. En el gr co se observa el procedimiento: a 27

(a) Comienzo en el extremo (b) Continuaci n con el ma- (c) Determinaci n del pathway o o inferior izquierdo yor score pr ximo o o trazo de alineamiento.

Figura 6.3: Trazado del pathway o trazo de alineamiento N tese que el algoritmo comienza en el extremo inferior izquierdo, con el o score m ximo y avanza hacia atr s en la anterior la y columna buscando el maa a yor score. El alineamiento correspondiente a s1 es a1 y para s2 es a2, se forma siguiendo el pathway o ruta tomando en cuenta las coincidencias con las secuencias, el cual se construye de la siguiente manera: Comenzando con a1 = y a2 = 1. Si Mi,j = Mi1,j1 + Si1,j1 es decir un avance en diagonal con coicidencia de caracteres: a) al := al + s1i1 b) a2 := a2 + s1i1 2. Si el avance del pathway es horizontal, es decir de Mi,j = Mi1,j + W : a) al := al + s1i1 b) a2 := a2 + 3. Si el avance del pathway es vertical, es decir de Mi,j = Mi,j1 + W : a) al := al + b) a2 := a2 + s1i1 Para nalizar la explicaci n del algoritmo el pseudoc digo es el siguiente: o o Pseudoc digo del Algoritmo de Needleman-Wunsch. o Input: Secuencias s1 = s11 . . . s1n y s2 = s21 . . . s2n , la matriz de sustituci n o S y la penalizaci n por gap W . o Output: Un alineamiento de s1 y s2, a1 y a2 respectivamente. 28

1. n := |s1| y m := |s| 2. desde i := 1 hasta n + 1 hacer Mi,0 := 0 3. desde j := 1 hasta m + 1 hacer M0,j := 0 4. desde i := 1 hasta n hacer 5. 6. 7. desde j := 1 hasta m hacer Mi,j := M aximo {Mi1,j1 + Si,j , Mi,j1 + W, Mi1,j + W } n desde

8. n desde 9. mientras i > 1 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. mientras j > 1 si Mi,j = Mi1,j1 + Si1,j1 entonces al := al + s1i1 a2 := a2 + s1i1 sino si Mi,j = Mi1,j + W : al := al + s1i1 a2 := a2 + sino si Mi,j = Mi,j1 + W : al := al + a2 := a2 + s1i1 n si n si 29

24. 25. 26. 27.

n si j := j 1 n mientras i := i 1

28. n mientras

6.2.

Algoritmo de Weiner

Este algoritmo [15] transforma a una secuencia en una estructura de tipo arbol esto con el n de mejorar el tiempo de ejecuci n de los problemas de secuencias o como alineamiento exacto e inexacto, es ampliamente estudiado y explicado en el libro Algorithms on strings, trees and sequences de Guseld [5]. Para lo cual denimos qu es un arbol de sujos, dado una sequencia S sobre e y sea A el conjunto de todos los sujos de S: A = S1|S| , S2|S| , . . . , SS|S| Para efectos de f cil entendimiento sea S = bbabbaab entonces el conjunto A a de los sujos es: S [1 . . . 8] = bbabbaab S [2 . . . 8] = babbaab S [3 . . . 8] = abbaab S [4 . . . 8] = bbaab S [5 . . . 8] = baab S [6 . . . 8] = aab S [7 . . . 8] = ab 30

S [8 . . . 8] = b Ahora se dene el arbol T el cual se conforma desde el extremo inferior del triangulo formado por los sujos de S, el arbol, en este caso de dos hijos a los m s a por cada nodo, se expande a la izquierda si es a y si es b a la derecha.

Figura 6.4: Arbol de Sujos para S Con este arbol es posible resolver a modo de explicaci n de uso un problema o sobre secuencias como es el problema de la subsecuencia. El problema se dene as: Intup: P y S. Output: una ocurrencia de P en S. donde P y S est n denidos sobre un conjunto . a De esta forma si P = babba ocurre en S si se puede encontrarse todo su recorrido en el arbol T ; y en efecto lo est y puede ser descrito como DIDDI (D a derecha e I izquierda) como el recorrido en el arbol. Esto ocurre debido a que las siguientes armaciones son equivalentes: P ocurre en S. P es un prejo de un sujo de S. 31

P corresponde a un camino de T comenzando desde la raz de T . Como se muestra en la soluci n del problema anterior planteado tambi n se o e puede extender a la soluci n de alineamiento exacto e inexacto de secuencias, por o lo que el arbol de sujos es muy importante [5] debido a que simplica considerablemente la b squeda de una secuencia, entonces el problema se disgrega a otro u que es el de construir arboles de sujos, entre uno de las propuestas m s exitosas a [5] es el algoritmo de Weiner [15]. Si m = |S|, adem s S es adicionado el caracter $. a Se denota a Suf fi como el sujo S [i . . . |S|] de S comenzando en i. Se dene a Ti como el arbol de m i 2 hojas numeradas de i a m 1 tal que la raz comienza en alguna hoja j (i j m + 1) en Suf fj . Sea Hi denota la m s grande subsecuencia del prejo de S [i . . . m] que se a alinea con una subsecuecia de S [i + 1 . . . m] $. El algoritmo de Weiner construye los arboles desde Tm+1 hasta T1 . Entonces se comienza com Tm+1 el cual es simplemente una hoja con terminaci n de caraco ter $ luego desde i hasta 1 el algoritmo construye el arbol Ti desde Ti+1 y caracter Si . Siendo la idea principal la construcci n de un arbol muy similar mostrado en o la gura 6.4 por lo que se procede que cada arbol Ti tendr la propiedad que para a cada nodo v en Ti no existir dos hojas que tengan el mismo caracter (similar a la a gura 6.4) entonces el arbol Ti+1 s lo tendr una unica hoja por la cual podr creo a a cer. En general, se crea el arbol Ti procedente de Ti+1 , al comenzar en la raz de Ti+1 y avanzar todo lo que fuese posible hacia abajo aline ndose correcamente con a un prejo de Suf fi . Ll mese R la ruta o camino por la que se avanza hacia abajo a en el arbol Ti+1 , este R es unico y no existe otro estp es concluyente para todo nodo v de Ti+1 . Si la ruta R no logra alinear exactamente a Suf fi $ se adiciona un nodo w etiquetado como i teniendo la nueva terminal (w, i), es de esta forma c mo Ti es formado. o Debido a que se tiene que calcular Hi como el alineamiento con Suf fi esto implica resolver un problema dentro de otro para lo cual ell algoritmo calcula dos valores adicionales: Para un caracter x y alg n nodo u, Iu (x) = 1 en Ti+1 si y s lo si hay una u o ruta desde la raz de Ti+1 igual a x donde es un ruta para llegar a u, x podra no terminar en un nodo necesariamente. 32

(a) Arbol T2 para S = ba

(b) Arbol T1 para S = aba, en este caso se adiciona los nodos b y a al nodo izquierdo para que pueda alinearse correctamente con bab

Figura 6.5: Formaci n del arbol T1 a partir de T2 . o Para alg n caracter x, Lu (x) en Ti+1 apunta a un nodo interno u en Ti+1 u s y s lo si u tiene una ruta x, donde u tiene como etiqueta de ruta a , en o otro caso Lu (x) es nulo. Con lo anterior se puede explicar el funcionamiento del algoritmo: 1. Comenzar en la hoja i + 1 de Ti+1 , que es la hoja para Suf f y avanzar +1 hacia la raz buscando el primer nodo v en el avance tal que Iu (Si ) = 1. 2. Si no se cumple lo anterior y se ha llegado a la raz y Ir (Si ) = 0 entonces Hi termina en la raz. Ir al paso 4. 3. Sea v el posible nodo encontrado cuyo Iu (Si ) = 1 entonces continuar hacia la raz hasta encontrar el primer nodo v , pudiendo ser v = v tal que Lv (Si ) no es nulo. a) Si la raz es encontrada y Lr (Si ) es nulo, sea ti el n mero de caracteres u en la ruta entre la raz y v. Buscar el terminal e cuya ruta comienza con Si . Hi termina exactamente ti + 1 caracteres desde la raz hacia e. Sino seguir con b. b) Si v fue encontrado seg n su condici n previamente establecida, llamemu o os v el siguiente link para Si a v , sea li el n mero de caracteres en la u ruta desde v a v y sea c el primer caracter de la ruta. Si li = 0 entonces Hi termina en v , en otro caso buscar el terminal e de v cuyp primer 33

caracter es c. Hi) naliza en exactamente li caracters abajo de v en el terminal e. 4. Si un nodo ya existe en el nal de Hi denotemos a w como nodo, en otro caso crear el nodo w al nal de Hi . Crear una nueva hoja enumeradapor i, crear un nuevo terminal (w, i) etiquetado con el sobrante de Suf fi seguido con el caracter terminal $. Y nalizado se ha creado el nuevo arbol Ti .

34

Captulo 7 Evaluaci n Te rica o o7.1.[5]: O(f ) Conjunto de funciones cuyo ritmo de crecimiento es menor o igual a f . T (n) O(f ) signica que T (n) esta acotado superiormente por cf (n), cuando n es sucientemente grande (c es una constante). Con esto se eval a u el peor de los casos de un algoritmo, se le posiciona en situaciones crticas. (f ) Conjunto de funciones cuyo ritmo de crecimiento es mayor o igual a f . T (n) (f ) signica que T (n) esta acotado inferiormente por cf (n), cuando n es sucientemente grande (c es una constante). Eval a a las funu ciones en su mejor caso, normalmente son casos triviales y no dan mucha informaci n. o (f ) Conjunto de funciones con el mismo ritmo de crecimiento de f : Orden de magnitud de f T (n) (f ) signica que T (n) esta acotado superiormente por cf (n), e inferiormente por kf (n), cuando n es sucientemente grande (c,k constantes). Eval a un caso promedio m s dicil de estimar. u a Una denici n m s formal de O(f ), que es lo que se usar para evaluar, es : o a a O(f ) = {g|k > 0 n0 > 0 : (n > n0 : g(n) kf (n))} (7.1)

Medidas de eciencia de un algoritmo

Para este c lculo se proceder a usar las notaciones asint ticas las cuales son a a o

Ejemplo si tenemos las funciones n2 y 3n2 , k tomar el valor de 3 y n0 indica a apartir de qu punto se cumple la desigualdad. e 35

Probar que la funci n 100n2 + n tiene el mismo ritmo de crecimiento que n2 o es cuenti n de tomar c = 101 y n0 = 1. o

7.2.

Eciencia en Tiempo del Algoritmo de NeedlemanWunsch

Entonces el procedimiento a seguir para evaluar la eciencia del algoritmo de Needleman-Wunsch es como sigue: 1. O1 (f ) = m + 1 dado que se asigna a Mi,0 := 0. 2. O2 (f ) = n + 1 dado que se asigna a M0,j := 0. 3. O3 (f ) = mn dado que se recorre toda la matriz de orden m n para rellenarla. 4. O4 (f ) = mn dado que se recorre la ruta mn para obtener el alineamiento. La cantidad total de tiempo para evaluar la eciencia es O1 (f ) + O2 (f ) + O3 (f ) + O4 (f ) y al aplicar la propiedad de eciencias, se halla la eciencia del algoritmo de Needleman-Wunsch como O() = M ax (O1 (f ), O2 (f ), O3 (f ), O4 (f )) = O(mn) entonces O(mn) es la eciencia de dicho algoritmo.

7.3.

Eciencia en Tiempo del Algoritmo de Weiner

El tiempo de construcci n de Ti apartir de Ti+1 y actualizar los vectores L y o I es proporcional al tiempo necesitado para avanzar desde la hoja i + 1, adem s a consideranco que el tiempo de avance y cambio de un nodo a otro es constante as como la adici n de un terminal (w, i). Entonces como cada paso a realizar o es de tiempo constante y el algoritmo s lo realiza avances a lo largo del arbol o seg n lo que requiera Suf fi el tiempo o c lculo de la eciencia es O(m) para la u a construcci n del arbol. o La prueba es seeg n como sigue, cada nodo podra incrementarse por uno cada u vez que un nodo es creado y cada nodo es apuntado para la generaci n de la ruta. o Por tanto la cantidad de incrementos del total de los nodos es de 2m. Adem s a como a lo m s se generan 2m nodos visitados durante el ascenco de una hoja a la a raz, entonces a los m s se visitar 2m nodos. El tiempo que le toma al algoritmo a a 36

es proporcional a la cantidad total de nodos visitados durante el ascenso de una hoja a la raz.

37

Captulo 8 Medici n de la distancia de o Levenhstein y HammingDado que el problema de alianer dos secuencias es encontrar el nivel de similitud, se plantean medidas de similitud entre ellas, como medidas de similitud se tiene a las distancias de Hamming y Levenshtein.

8.1.

Distancia de Hamming

Planteado por Richard Hamming [6] la denici n de esta distancia es como o sigue: Dados las secuencias A y B cuyos caracteres pertenecen al alfabeto y pertenecen al conjunto , con n = |A| y m = |B|, debe m = n. Entonces se denominar a dH (A, B) como la distancia de Hamming entre A y B igual al a mnimo n mero de sustituciones neceasrias para transformar A a B. Se puede u asignar un costo de sustituci n. o G G A A A A T T C T C A G T G G T T T A T T

Cuadro 8.1: Distancia de Hamming Como ejemplo en la tabla 8.1 se observa que las dos secuencias en la cuarta, sexta, s ptima y und cima existe sustituci n, es decir son diferente por lo que la e e o distancia de Hamming entre estas dos secuencias es 4 si consideramos el costo

38

de sustituci n igual a 1. La funci n que indica el costo de sustituci n puede ser o o o diferente de 1 volviendo a la distancia de Hamming m s compleja. a

8.2.

Distancia de Levenshtein

Planteado por V. Levenshtein [9] la denici n de esta distancia est dado por: o a Dados las secuencias A y B cuyos caracteres pertenecen al alfabeto y pertenecen al conjunto , con n = |A| y m = |B|, m,a diferencia de la distancia de Hamming, no necesariamente debe ser igual a n, se denota como dL (A, B) a la distancia de Levenshtein entre A y B igual al mnimo n mero de sustitu u ciones, inserciones y deleciones requeridas para transformar A a B. N tese que o ahora se puede adem s de sustituir se puede insertar y suprimir debido a que los a tama os son diferenciados. Se puede adicionar un costo de sustituci n, inserci n n o o o deleci n. o G G A A A T A T T C G A G T G T T T A T

Cuadro 8.2: Distancia de Levenshtein En la tabla 8.2 se observa que las dos secuencias son de diferente tama o y n que debe existir una inserci n en la cuarta y novena posici n para poder igualar o o (obs rvese que podra haber sido una deleci n) las dos secuencias y que en la e o sexta, s tima y und cima posici n existe una susstituci n. Por lo que la distancia e e o o de Levenshtein es 5 tomando como costo 1. La funci n que indica el costo de o sustituci n, inserci n o deleci n puede ser diferente de 1 volviendo a la distancia o o o de Levenshtein m s compleja. a

39

Captulo 9 Conclusiones9.1. Conclusiones

1. La programaci n de algoritmos como el de Needleman-Wunsch requieren o un adecuado uso de memoria para porder ejecutarlo en una computadora convencional. 2. Algoritmos como el de Weiner logran construir un arbol de sujos en tiempo lineal. 3. El algoritmo de Needleman-Wunsch requiere una optimizci n para poder o ser desarrollada en una computadora convencional.

9.2.

Contribuciones

Un estudio de algunos de los algoritmos m s usados en la bioifnorm tica exa a plicados a un nivel regular para su entendimiento.

9.3.

Trabajos Futuros

Debido al presente pre-tesis expuesto la implementaci n de los algoritmos o para que puedan ejecutarse en una computadora convecional es neceario para la culminaci n del trabajo actual y as poder evaluar en toda su envergadura o

40

Bibliografa [1] J. Sutcliffe Y. Fu D. Kuhl A. Pizzuti O. Reiner S. Richards M. Victoria F. Zhang B. Eussen G. Vanommen L. Blonden G. Riggins C. Kunst H. Galjaard C. Caskey D. Nelson B. Oostra A. Verkerk, M. Pieretti and S. Warren. Identication of a gene (fmr-1) containing a cgg repeat coincident with a breakpoint cluster region exhibiting length variation in fragile x syndrome. Cell, 65:905914, 1991. [2] Santamaria M. Lascaro D. Scioscia G. Pappada G. Russo L. Zanchetta L. Tommaseo-Ponzetta M. Attimonelli M., Accetturo M. HmtDB, a Human Mitochondrial Genomic Resource Based on Variability Studies Supporting Population Genetics and Biomedical Research, 2004. [3] Vladimir Dancik. Expected length of longest common subsequences. Masters thesis, University of Warwic, September 1994. [4] H. D. C. R. Group. A novel gene containing a trinucleotide repeat that is expanded and unstable on huntingtons disease chromosomes. Cell, 72:971983, 1993. [5] Dan Guseld. Algorithms on Strings, Trees and Sequences. Cambridge University Press, 1997. [6] Richard W. Hamming. Error detecting and error correcting codes. Bell System Technical Journal, 26(2):147160, 1950. [7] Robert M. Horton. Bioinformatics algorithm demonstrations in microsoft excel. Masters thesis, California State University, 2004. [8] K. Sang-Ho K. J. Woo and C. Jae-Kwan. Association of the dopamine transporter gene with parkinsons disease in korean patients. Journal of Korean Medical Science, 15(4), 2000. 41

[9] V. Levenshtein. Binary codes capable of correcting deletions, insertions and reversals. Soviet Physics Doklady, 10:707, 1966. [10] S.B. Needleman and C.D. Wunsch. A general method applicable to the search for similarities in the amino acid sequence of two proteins. Journal of Molecular Biology, 48:443453, 1970. [11] Eric Rivals. A survey on algorithmic aspects of tandemrepeats evolution. International Journal of Foundations of Computer Science, 15(2):225257, 2004. [12] Brown M. Hughey-R. Mian I.S. Sjolander K. Underwood R.C. Haussler D. Sakakibara, Y. Stochastic context-free grammars for trna modeling. nucleic acids research. Journal of Molecular Biology, 22(23):1220, 1994. [13] T.F. Smith and M.S. Waterman. Identication of common molecular subsequences. Journal of Molecular Biology, 147:195197, 1981. [14] A. Kohler P. Wegele K. Beyser G. Sagner R. Wartbichler W. Dietmaier, W. Riedlinger and J. Ruschoff. Detection of microsatellite instability msi and loss of heterozygosity loh in colorectal tumors by uorescence-based multiplex microsatellite pcr. Biochemica, 2:4245, 1999. [15] Weiner. IEEE FOCS, 1973. [16] Yoan Pinz n Wilson Soto. Sobre el longest common subsequence: Exteno siones y algoritmos. Revista Colombiana de Computaci n, 8(2):79100. o [17] Yechezkel Kashi Dan Geiger Ydo Wexler, Zohar Yakhini. Finding approximate tandem repeats in genomic sequences. ACM, 2004.

42

VitaSalas Coz, Erwin Erasmo naci en Per , Departamento de Lima, el 13 de o u julio de 1988. Ingres a la Universidad Nacional de Ingeniera en Febrero del o 2005.

A L A PRESENTE PRE - TESIS FUE TIPOGRAFIADA CON L TEX POR S ALAS C OZ E RWIN E RASMO Y .

c Salas Coz Erwin Erasmo 2008