Como analizar una proteína por métodos bioinformáticos

BIOINFORMATICA

DANIEL LOPEZ SOSA

INGENIERIA EN BIOTECNOLOGIA

SEXTO SEMESTRE

Partiendo de la secuencia de ADN problema se realizaron los siguientes estudios bioinformaticos

que se presentaran a continuacin.

Como primer estudio bioinformatico ser realizo la traduccin de la secuencia problema

(fig.1) dentro de una interfaz bioinformtica en lnea.

CCGCCTGTCGCCTGTGCGCCTGCGCGCGGCGCCGAGGGGACGGGGTCCGACTCAGAAATGGCGGCCTCCATGTTCTACGGCAGGCTAGT

GGCCGTGGCCACCCTTCGGAACCACCGGCCTCGGACGGCCCAGCGGGCTGCTGCTCAGGTTCTGGGAAGTTCTGGATTGTTTAATAACC

ATGGACTCCAAGTACAGCAGCAACAGCAAAGGAATCTCTCACTACATGAATACATGAGTATGGAATTATTGCAAGAAGCTGGTGTCTCC

GTTCCCAAAGGATATGTGGCAAAGTCACCAGATGAAGCTTATGCAATTGCCAAAAAATTAGGTTCAAAAGATGTCGTGATAAAGGCACA

GGTTTTAGCTGGTGGTAGAGGAAAAGGAACATTTGAAAGTGGCCTCAAAGGAGGAGTGAAGATAGTTTTCTCTCCAGAAGAAGCAAAAG

CTGTTTCTTCACAAATGATTGGGAAAAAATTGTTTACCAAGCAAACGGGAGAAAAGGGCAGAATATGCAATCAAGTATTGGTCTGTGAG

CGAAAATATCCCAGGAGAGAATACTACTTTGCAATAACAATGGAAAGGTCATTTCAAGGTCCTGTATTAATAGGAAGTTCACATGGTGG

TGTCAACATTGAAGATGTTGCTGCTGAGTCTCCTGAAGCAATAATTAAAGAACCTATTGATATTGAAGAAGGCATCAAAAAGGAACAAG

CTCTCCAGCTTGCACAGAAGATGGGATTTCCACCTAATATTGTGGAATCAGCAGCAGAAAACATGGTCAAGCTTTACAGCCTTTTTCTG

AAATACGATGCAACCATGATAGAAATAAATCCAATGGTGGAAGATTCAGATGGAGCTGTATTGTGTATGGATGCAAAGATCAATTTTGA

CTCTAATTCAGCCTATCGCCAAAAGAAAATCTTTGATCTACAGGACTGGACCCAGGAAGATGAAAGGGACAAAGATGCTGCTAAGGCAA

ATCTCAACTACATTGGCCTCGATGGAAATATAGGCTGCCTAGTAAATGGTGCTGGTTTGGCTATGGCCACAATGGATATAATAAAACTT

CATGGAGGGACTCCAGCCAACTTCCTTGATGTTGGTGGTGGTGCTACAGTCCATCAAGTAACAGAAGCATTTAAGCTTATCACTTCAGA

TAAAAAGGTACTGGCTATTCTGGTCAACATTTTTGGAGGAATCATGCGCTGTGATGTTATTGCACAGGGTATAGTCATGGCAGTAAAAG

ACTTGGAAATTAAAATACCTGTTGTGGTACGGTTACAAGGTACACGAGTCGATGATGCTAAGGCACTGATAGCGGACAGTGGACTTAAA

ATACTTGCTTGTGATGACTTGGATGAAGCTGCTAGAATGGTTGTAAAGCTCTCTGAAATAGTGACCTTAGCGAAGCAAGCACATGTGGA

TGTGAAATTTCAGTTGCCAATATGATCTGAAAACCCAGTGGATGGCTGAAGGTGTTAAATGTGCTATAATCATTAAGAATACTGTGTTC

TGTGTTATTGTTCTTTTTCTTTTTAGTGTGTGGAGATTGTAATTGCCATCTAGGCACACAAACATTTAAAAGGATTTGGACTGCATTTA

ATTGTACCATTCAGAATGGACTGTTTGTACGAAGCATGTATAATGCAGTTATCTTCTTTCTTTTGTCGCAGCCAGTCTTTTTTGCTTCT

CCTACAAAACGTAACTTGCAATTTGCCAGTTTATTATTGTTGGATACAAAGTTCTTCATTGATAAGAGTCCTATAAATAAGATAAATAC

GAAGATAAAGCTTTATTCTTTAGTGTTAAAATACAGTATA

Fig.1 Secuencia de ADN problema

Fig.2 Portal bioinformatico utilizado

Dentro de la interfaz, acudimos al algoritmo de traduccin.

Posteriormente copiamos la secuencia problema y se cliqueo en la opcin de traducir

secuencia.

Se observ que la secuencia problema contena nucletidos contaminantes al gen, por tal

motivo se hizo un recorte de la secuencia, este proceso se hizo de forma manual contando

el nmero de aminocidos que no estaban marcados y multiplicndolos por tres para

eliminar nucletidos contaminantes en el gen.

Fig.3 Algoritmo de traduccin

Fig.4 Secuencia problema traducida, fue elegida esta secuencia de protena puesto que es la ms subjetiva en

comparacin a los resultados.

Se realiz una nueva traduccin del gen que se haba recortado para comprobar que fue

recordado de manera correcta.

ATGGCGGCCTCCATGTTCTACGGCAGGCTAGTGGCCGTGGCCACCCTTCGGAACCACCGGCCTCGGACGGCCCAGCGGGC

TGCTGCTCAGGTTCTGGGAAGTTCTGGATTGTTTAATAACCATGGACTCCAAGTACAGCAGCAACAGCAAAGGAATCTCT

CACTACATGAATACATGAGTATGGAATTATTGCAAGAAGCTGGTGTCTCCGTTCCCAAAGGATATGTGGCAAAGTCACCA

GATGAAGCTTATGCAATTGCCAAAAAATTAGGTTCAAAAGATGTCGTGATAAAGGCACAGGTTTTAGCTGGTGGTAGAGG

AAAAGGAACATTTGAAAGTGGCCTCAAAGGAGGAGTGAAGATAGTTTTCTCTCCAGAAGAAGCAAAAGCTGTTTCTTCAC

AAATGATTGGGAAAAAATTGTTTACCAAGCAAACGGGAGAAAAGGGCAGAATATGCAATCAAGTATTGGTCTGTGAGCGA

AAATATCCCAGGAGAGATACTACTTTGCAATAACAATGGAAAGGTCATTTCAAGGTCCTGTATTAATAGGAAGTTCACAT

GGTGGTGTCAACATTGAAGATGTTGCTGCTGAGTCTCCTGAAGCAATAATTAAAGAACCTATTGATATTGAAGAAGGCAT

CAAAAAGGAACAAGCTCTCCAGCTTGCACAGAAGATGGGATTTCCACCTAATATTGTGGAATCAGCAGCAGAAAACATGG

TCAAGCTTTACAGCCTTTTTCTGAAATACGATGCAACCATGATAGAAATAAATCCAATGGTGGAAGATTCAGATGGAGCT

GTATTGTGTATGGATGCAAAGATCAATTTTGACTCTAATTCAGCCTATCGCCAAAAGAAAATCTTTGATCTACAGGACTG

GACCCAGGAAGATGAAAGGGACAAAGATGCTGCTAAGGCAAATCTCAACTACATTGGCCTCGATGGAAATATAGGCTGCC

TAGTAAATGGTGCTGGTTTGGCTATGGCCACAATGGATATAATAAAACTTCATGGAGGGACTCCAGCCAACTTCCTTGAT

GTTGGTGGTGGTGCTACAGTCCATCAAGTAACAGAAGCATTTAAGCTTATCACTTCAGATAAAAAGGTACTGGCTATTCT

GGTCAACATTTTTGGAGGAATCATGCGCTGTGATGTTATTGCACAGGGTATAGTCATGGCAGTAAAAGACTTGGAAATTA

AAATACCTGTTGTGGTACGGTTACAAGGTACACGAGTCGATGATGCTAAGGCACTGATAGCGGACAGTGGACTTAAAATA

CTTGCTTGTGATGACTTGGATGAAGCTGCTAGAATGGTTGTAAAGCTCTCTGAAATAGTGACCTTAGCGAAGCAAGCACA

TGTGGATGTGAAATTTCAGTTGCCAATA

Fig.5 Secuencia de ADN recortada.

Fig.6 Secuencia de ADN recortada y traducida correctamente.

Posteriormente en la base de datos dela NCBI se realiz un blast correspondiente para saber

de qu protena se trataba y su procedencia.

Se observ el porcentaje de homologa y estos fueron los resultados.

Fig.7 Blast de la interfaz de la NCBI con la secuencia de protena problema.

Fig.8 Resultados del blast, la protena corresponde succinyl-CoA ligasa correspondiente al homo sapiens (hombre)

Sabiendo la procedencia de la protena se realizaran comparaciones con respecto a otras

protenas homologas de otras especies de organismos.

Fig.9 Blast de la interfaz de la NCBI comparando la secuencia problema con la del ratn.

Fig.10 Blast de la interfaz de la NCBI comparando la secuencia problema con la del pez cebra.

Fig.11 Blast de la interfaz de la NCBI comparando la secuencia problema con la de la vaca.

Fig.12 Blast de la interfaz de la NCBI comparando la secuencia problema con la del cerdo.

Fig.13 Blast de la interfaz de la NCBI comparando la secuencia problema con la del perro.

Fig.13 Blast de la interfaz de la NCBI comparando la secuencia problema con la de las Cianobacterias.

Fig.13 Blast de la interfaz de la NCBI comparando la secuencia problema con la de las Levaduras.

Fig.13 Blast de la interfaz de la NCBI comparando la secuencia problema con la de Arabidopsis.

Fig.14 Blast de la interfaz de la NCBI comparando la secuencia problema con la del Hmster

Fig.14 Blast de la interfaz de la NCBI comparando la secuencia problema con la de la Abeja.

Una vez obtenidas las secuencias homologas y haber comparado su porcentaje de

homologa se elabor un rbol filogentico.

Fig.14 Blast de la interfaz de la NCBI comparando la secuencia problema con la de la Rana.

Fig.15 rbol filogentico de las secuencias comparadas.

ccgc|gg

AAA

Clonacin.

A partir del plsmido tomado del bluescrip, se eligieron dos enzimas de restriccin las

cuales no cortaban dentro del Gen puesto que aria una mutacin del mismo y por

consiguiente una prdida de la funcionalidad.

Las enzimas utilizadas sern:

1. SacI con sitio de corte en gagct|c

2. SaII cuyo sitio de corte es ccgc|gg

Posteriormente se hizo el diseo del primer a partir de la secuencia de ADN problema.

Primer Directo

AAAGGAGCTCATGGCGGCCTCCATG

Fig.16 Plsmido Bluescript con las posibles enzimas de corte utilizables.

Fig.17 Enzimas de restriccin que se utilizaran.

Primer Reverso

GTACCTCCGGCGGTACTCGAGGAAA

Con ayuda de un programa bioinformatico se hizo el clculo del Tm para este primer.

Segn el tamao del gen (1389 bases) y con el Tm de los primers ya calculada (74 C) se propone

en la siguiente tabla con los nmeros de ciclos con temperaturas y tiempos correspondientes para

realizar una PCR

Proceso Temperatura Tiempo Tiempo por Ciclo 7min, 30seg

Desnaturalizacin 97 5minutos Total por 30 ciclos 3hrs, 45 min

Alineamiento 74 1 minuto

Extensin 78 1min 30seg

Propiedades de la Protena resultado de la transcripcin del Gen problema.

Con ayuda del algoritmo proscan se identificaron sitios de reacciones

especficas dentro de la protena con una identidad del 100% sin

errores.

Fig.18 Calculo de la Tm con ayuda de un algoritmo.

Al igual que se pueden hacer estos tipos de anlisis con 100% de

identidad se pueden bajar los criterios de error, a continuacin se

presentaran algunos sitios de reacciones especificas con un error.

Fig.19 Sitios de reacciones especificas sin error.

Prediccin de estructuras secundarias de la protena.

Al igual que podemos predecir reacciones especficas de las protenas

tambin podemos predecir estructuras secundarias de las mismas.

Fig.20 Sitios de reacciones especificas con un error.

Composicin de la protena.

Con la ayuda de un algoritmo dentro de la pgina de la NPS@ podemos

calcular la composicin de la protena.

Fig.21 Sitios donde se llevan a cabo conformacin especifica de las estructuras secundarias de las protenas.

PERFIL FISICOQIMICO DE LA PROTEINA.

Con la ayuda de un programa bioinformatico tambin es posible

predecir el perfil fisicoqumico de una protena.

Fig.22 Composicin de la protena.

CONCLUSIN

De acuerdo a la informacin consultada acerca de la enzima Succinyl-CoA ligasa y en

comparacin con el anlisis hecho a la secuencia de ADN de origen desconocido, se puede

concluir que se trata de la enzima Succinyl-CoA ligasa proveniente del Homo sapiens, dado

como resultado:

Que se encontr un 100% de homologa con la Succinyl-CoA del Homo sapiens. Se pueden

observar con respecto a los arboles filogenticos que tiene tienen parentescos filogenticos con

el hmster y el ratn.

Fig.22 Perfil Fisicoqumico de la protena problema.

Segn la Secuencia de protena ya identificada con estudios previos se comenz a realizar estudios

especficos de la misma, como primer punto se realiz la visualizacin de los dominios de las

protenas en dos bases de datos diferentes mediante el algoritmo pfam que se encuentra dentro de

la interfaz de SMART HEIDELBERG

Fig.23 Interfaz de Smart-Heidelberg

Fig.24 Resultados del estudio Pfam

Posteriormente fue ejecutado la visualizacin de los dominios de la protena dentro de la interfaz

del NCBI databank dentro del formato grafics.

Fig.25 Informacin del dominio Seleccionado

Fig.26 Seleccin de la protena resultado del blast en el NCBI

Fig.27 Visualizacin de los dominios de la protena en formato grafics.

Fig.28 Informacin de la ubicacin de la protena.

Fig.29 Informacin de la ubicacin y tamao de un domino de la protena (ATP-grasp).

Realizados los anteriores estudios, fueron posibles elaborar arboles filogenticos de los motivos de

que contiene la protena problema.

Fig.30 Informacin de la ubicacin y tamao de un domino de la protena (ligase-CoA) .

Fig.31 rbol filogentico del motivo de la protena (ATP-grasp).

Es posible encontrar informacin adicional dentro de las interfaces bioinformticas en las cuales se

mostrara a continuacin una pequea descripcin de los motivos de la protena a travs de la

interfaz de la interpro.

Fig.32 rbol filogentico del motivo de la protena (ligasa-CoA).

Fig.33 Informacin Adicional descrita en interpro para ATP-grasp.

Informacin adicional ATP Succinyl-CoA sintetasa Dominios Relacionados

Ninguno.

Descripcin.

El ATP-comprensin incluye super familia actualmente 17 grupos de enzimas, que

catalizan la ligadura dependiente de ATP de una molcula que contiene carboxilato a

un amino o molcula que contiene un grupo tiol. Contribuyen principalmente a la

sntesis macromolecular. ATP-hidrlisis se utiliza para activar un sustrato. Por ejemplo,

las transferencias D-ligasa fosfato del ATP a D-alanina en la primera etapa de la

catlisis. En el segundo paso, el acilfosfato resultante es atacado por un segundo D-

alanina para producir un dipptido DD despus de la eliminacin de fosfato.

El dominio ATP-comprensin contiene tres motivos conservados, que corresponde al

bucle de unin a fosfato y el sitio de unin de Mg. El pliegue se caracteriza por dos

subdominios alfa-beta que captar la molcula de ATP entre ellos. Cada subdominio

Fig.34 Informacin Adicional descrita en interpro para el dominio Succinyl-CoA.

proporciona una variable de bucle que forma parte del sitio activo, completado por

regin de otros dominios no conservados entre las diferentes enzimas ATP-GRASP.

El dominio ATP-comprensin representado por esta entrada se encuentra

principalmente en sintetasas - succinil CoA.

ATP-ligasa

Dominios Relacionados.

Succinyl-CoA sintetasa

ATP-Citrato liasa

Descripcin

Esta entrada representa un dominio encontrado tanto en las cadenas alfa y beta de

succinil- CoA sintasa formando GDP y ADP. Este dominio tambin se puede encontrar

en ATP citrato sintasa y malato-CoA ligasa. Algunos miembros Del dominio utilizan

otras ATP utilizan GTP.

Dentro de la uniprot se pueden realizar anlisis bioinformaticos de igual manera que en las otras

interfaces como en la NCBI.

Fig.35 Informacin adicional de los dominios.

Fig.36 Interfaz de la uniprot.

Fig.37 Bsqueda de la protena dentro de la base de dato de la uniprot.

Fig.38 Entrada de a la protena identificada.

Fig.39 Blast de la protena con un 100% de homologa con otra protena (la misma protena).

Dentro de la base de datos como el NCBI y en general es muy posible encontrar mucha informacin

redundante entre las secuencias dentro de las protenas por tal motivo existen formas de observar

a informacin redundante dentro del NCBI.

Fig.40 Blast de la protena con un 80% de homologa (de protena de otra especie).

Fig.41 Interfaz del blast del NCBI.

Fig.42 Blast de la protena se observa el link See 17 more titles(s) donde se encuentra informacin redundante.

Fig.43 Informacin redundante de la protena.

Dentro del algoritmo CLUSTALW2 fue posible al igual que de protenas realizar un rbol filogentico

con la secuencia del gen de ADN otorgada.

De igual forma con el algoritmo ya mencionado de CLUSTALW2 es posible identificar los motifs ya

sea con la secuencia de protenas o ADN.

Fig.44 rbol filogentico con base a las secuencias de ADN.

Fig.45 Comparacin secuencias de ADN y no se presentan motifs.

Fig.46 Comparacin secuencias de ADN se presentan motifs (motifs sealados con * ).

Fig.47 Comparacin secuencias de protenas no se observan motifs.

Dentro de bases de la interfaz del Proten data bank in Europe es posible visualizar estructuras

tridimensionales de protenas en este apartado se mostrara la protena problema y estructura

terciaria.

Fig.48 Comparacin secuencias de protenas se presentan motifs (motifs sealados con * ).

Fig.49 Interfaz Del Protein Data Bank in Europe.

Dentro del Proten Data Bank podemos realizar alineamiento y comparacin de protenas adems

de ser posible visualizarlas en superposicin una con otra.

Fig.50 Estructura terciaria de la protena en diferentes posiciones.

Fig.51 Interfaz del Proten Data Bank.

Fig.52 Introduccin de datos para realizar el anlisis estructural.

Fig.53 Resultados de la comparacin de Succinyl-CoA de Homo sapiens vs E coli.

Fig.54 Resultados de la comparacin de Succinyl-CoA de Homo sapiens vs Methanocaldococcus

Fig.55 Resultados de la comparacin de Succinyl-CoA de Homo sapiens vs Sus srofa

Fig.56 Resultados de la comparacin de Succinyl-CoA de Homo sapiens vs Thermus aquaticus

A travez de la interfaz de bioinformatics toolkit es posible realizar la prediccion de estructuras de

la proteina.

Fig.57 Interfaz de Bioinformatics toolkit

Fig.58 Alineamiento de la protena

Fig.59 Alineamiento de la protena con respecto a homo sapiens (zona marcada)

Fig.60 Alineamiento de la protena con respecto al Jabal

Fig.61 Alineamiento de la protena con respecto a E. coli

RESEA

Reversin de la enfermedad avanzada del virus bola en primates con zmapp

Sin vacuna alguna o tratamiento aprobado sobre la gestin del brote de bola se ha limitado a

mtodos de cuidado y de barrera paliativos para una adecuada prevencin de la transmisin del

virus. Sin embargo hasta el momento los brotes de la enfermedad no se han terminado, despus de

su prolongada presencia en frica occidental. Dentro del artculo se muestran una combinacin de

anticuerpos monoclonales (zmapp), obtenidos a partir de dos conglomerados de anticuerpos

anteriores y fueron capaces de rescatar hasta el 100% de los macacos Rhesus.

Cuando se iniciaba tratamiento hasta un mximo de 5 das despus de la exposicin y eran posibles

observar sntomas como fiebre alta, viremia y anormalidades dentro de la biometra hemtica y

qumica sangunea fueron muy notables estos sntomas igual en animales antes de la inyeccin del

anticuerpo zmapp.

Era posible observar como la enfermedad avanzaba puesto que se mostraban en las enzimas

hepticas elevadas, hemorragias de las mucosas pero en general puede ser revertida con la accin

de anticuerpos monoclonales.

Con la prueba de ELISA y ensayos de anticuerpos neutralizantes fue posible indicar que la reaccin

del zmapp es una reaccin cruzada con la variante de Guinea de bola, el zmapp supera la eficacia

de todas las terapias descritas hasta el momento y con estos resultados se pueden tener un mejor

desarrollo clnico para un aumento de la calidad de salud.

Dado que se conoce la respuesta de anticuerpos de acogida que se correlaciona con y es necesario

para la proteccin de infecciones, es probable que la pieza central de cualquier estrategia

teraputicas futuras para luchar contra los brotes bola tratamientos basados en anticuerpos

monoclonales. Sin embargo, si los supervivientes tratados con zmapp pueden ser susceptibles a la

re-infeccin es desconocida.

En un estudio previo en murinos ZMAb tratados, sobrevivientes PHN-desafi EBOV, un re-desafo

de estos animales con el mismo virus en el 10 y 13 semanas despus de la exposicin inicial produjo

6 de 6 sobrevivientes y 4 de 6 sobrevivientes, respectivamente.

Conclusin:

Durante los ltimos aos la biologa molecular y biomdica han caminado a pasos agigantados en

materia de estudio de enfermedades y desarrollo de tratamientos para enfermedades de alto

impacto para la humanidad, puesto que, a medida que la humanidad evoluciona las enfermedades

causadas por agentes dainos tambin evolucionan paralelamente, este estudio realizado es un

claro ejemplo de el desarrollo de nuevas tcnicas de biomdica en las cuales se tienen muchas

expectativas y esperanzas a estos estudios.

Conclusin.

De acuerdo con los anlisis bioinformaticos realizados es posible concluir que con interfaces

bioinformticas es viable encontrar y determinar dominios de las protenas al igual que predecir las

estructuras que adoptan y observar sus alineamientos. Tambin se pueden realizar arboles

filogenticos de dominios estructurales de protenas homologas y a su vez observar que motivos se

presentan en homologa. Al igual que se encuentran reportes de secuencias no redundantes de

protenas dentro de las bases de datos en lnea, con la ayuda de la bioinformtica es innumerable

la cantidad de estudios que son posibles realizar para obtener informacin de la misma.

Conclusin de la protena.

Segn el estudio bionformatico realizado sobre la protena de muestra he llegado a la conclusin

que la protena Succinyl-CoA ligasa tiene dos dominios proteicos (ATP-grasp y ligasa-CoA) los cuales

segn un estudio filogentico la interaccin del primero dominio (ATP-grasp) se encuentra ms

ligado filogenticamente con el homologo proteico de la especie animal Callirix y el segundo

dominio proteico (Ligasa-CoA) se encuentra ligado filogenticamente con mayor similitud a dos

especies animales el papio y la macaca. Tambin es vlido afirmar que en base a los estudios

filogenticos realizados los genes de la protena estudiada tienen mayor similitud con los de la

macaca que con respecto a otro cualquier mamfero analizado en este estudio. Al igual podemos

aseverar que dentro de las especies analizadas se encontraron motifs en la protena lo cual nos da

el argumento de pensar que la protena en esa funcin tiene serie de amino cidos iguales.

Biobliografia.

CLUSTALW2

http://www.ebi.ac.uk/Tools/msa/clustalw2/

SMART

http://smart.embl-heidelberg.de/

PDB DATA BANK

http://www.rcsb.org/pdb/home/home.do

PDB DATA BANK EN EUROPA

http://www.ebi.ac.uk/pdbe/node/1

EXPASY

http://www.expasy.org/

UNIPROT

http://www.uniprot.org/

NCBI BLAST

http://blast.ncbi.nlm.nih.gov/Blast.cgi

NPS@: Network Protein Sequence Analysis, TIBS 2000 March Vol. 25, No. 3 [291]:147-150, Combet C., Blanchet C., Geourjon C. and Delage G.

Prediction from alignments and joint prediction." C. Geourjon & G. Deleage, 1995, CABIOS, 11, 681-684

http://www.nature.com/nature/journal/vnfv/ncurrent/full/nature13777.html (RESEA)

Como analizar una proteína por métodos bioinformáticos

Documents

Transcript of Como analizar una proteína por métodos bioinformáticos