TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas...

35
Revisión 23/10/13 - 1 - TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS Las macromoléculas biológicas son en definitiva estructuras que se rigen por las leyes comunes de la física y que como tal pueden ser descritas teóricamente igual que lo son otros sistemas químicos. No obstante en la práctica somos capaces de entender el comportamiento de casi cualquier sistema químico, pero tenemos dificultades para entender, por ejemplo, el funcionamiento de la mayoria de proteínas. La razón no está ciertamente en la naturaleza de la química que pasa en las moléculas biológicas (que suele ser sencilla), sino en una serie de problemas prácticos que dificultan la descripción teórica: Tenemos solo un conocimiento parcial del conjunto de procesos bioquímicos en la célula (p.ej. conocemos bien catabolismo y anabolismo, pero no los networks de señalización, control del ciclo celular,...). A menudo no reproducimos el comportamiento de una macromolécula, porque no sabemos en realidad que está afectando su comportamiento. Tenemos una gran incertidumbre sobre la naturaleza del “entorno fisiológico”. Mucho de lo que sabemos de proteínas está obtenido por experimentos con proteina en muy alta dilución, mientras que en el interior de la célula el 20% en masa del citoplasma son proteínas, que no sabemos como interaccionan entre ellas. Las macromoléculas biológicas: proteínas, ácidos nucleicos son muy grandes lo que complica su descripción atomística, especialmente cuando las representamos rodeadas de solvente. Las técnicas que veremos en este capítulo son metodologías desarrolladas para intentar paliar el problema de la descripción de los grandes sistemas bioquímicos. Estas estrategias se pueden clasificar en 2 tipos: estadísticas o macroscópicas, y microscópicas o físicas.

Transcript of TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas...

Page 1: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 1 -

TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE

MACROMOLECULAS

Las macromoléculas biológicas son en definitiva estructuras que se rigen por las

leyes comunes de la física y que como tal pueden ser descritas teóricamente igual que lo

son otros sistemas químicos. No obstante en la práctica somos capaces de entender el

comportamiento de casi cualquier sistema químico, pero tenemos dificultades para

entender, por ejemplo, el funcionamiento de la mayoria de proteínas. La razón no está

ciertamente en la naturaleza de la química que pasa en las moléculas biológicas (que

suele ser sencilla), sino en una serie de problemas prácticos que dificultan la descripción

teórica:

• Tenemos solo un conocimiento parcial del conjunto de procesos

bioquímicos en la célula (p.ej. conocemos bien catabolismo y

anabolismo, pero no los networks de señalización, control del

ciclo celular,...). A menudo no reproducimos el comportamiento

de una macromolécula, porque no sabemos en realidad que está

afectando su comportamiento.

• Tenemos una gran incertidumbre sobre la naturaleza del “entorno

fisiológico”. Mucho de lo que sabemos de proteínas está obtenido

por experimentos con proteina en muy alta dilución, mientras que

en el interior de la célula el 20% en masa del citoplasma son

proteínas, que no sabemos como interaccionan entre ellas.

• Las macromoléculas biológicas: proteínas, ácidos nucleicos son

muy grandes lo que complica su descripción atomística,

especialmente cuando las representamos rodeadas de solvente.

Las técnicas que veremos en este capítulo son metodologías desarrolladas para

intentar paliar el problema de la descripción de los grandes sistemas bioquímicos. Estas

estrategias se pueden clasificar en 2 tipos: estadísticas o macroscópicas, y

microscópicas o físicas.

Page 2: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 2 -

Los métodos estadísticos (que asimilaremos aquí a técnicas

bioinformáticas) emplean básicamente principios de comparación. La idea es analizar

bases de datos de estructura, de secuencia, de función,…, para poder así derivar reglas

en función de lo conocido que permitan describir lo desconocido. Los métodos

físicos o microscópicos (que asimilaremos a técnicas de simulación) aspiran a

entender los sistemas biológicos a partir de principios físicos fundamentales.

BIOINFORMATICA ESTRUCTURAL

La Bioinformática hace hoy de soporte a todas las facetas de la investigación en

biología, desde ensamblados de genomas hasta la biología de sistemas. Nosotros en esta

asignatura solo mencionaremos las técnicas básicas de bioinformática estructural.

Métodos de predicción de propiedades primarias de las proteínas

Hay un buen número de propiedades primarias de las proteínas que pueden ser

inferidas directamente a partir de su secuencia. Entre ellas el punto isoeléctrico, la masa

atomica, la curva de titración, el coeficiente de extinción y muchas otras características

fisicoquímicas que se pueden derivar a partir del conocimiento de la composición en

aminoácidos de una proteína.

Una herramienta muy útil son los perfiles de hidrofobicidad. Para obtenerlos se

calcula en unas ventanas de residuos determinadas cual es la hidrofobicidad media en

cada residuo a partir de los coeficientes de partición (p.ej octanol/agua o

clorofomo/agua) de los aminoácidos. Este tipo de perfil es muy útil, para por ejemplo

determinar regiones internas (tipicamente hidrofóbicas) o externas (tipicamente

hidrofílicas) de proteínas. También es información que se puede procesar para

determinar regiones transmembranas, regiones de interacción proteína proteína, etc.

Un ejemplo del tipo de perfil que se obtiene se muestra en la Figura 1. En el eje

de abcisas esta la secuencia y en ordenadas el índice de hidrofobicidad. Valores

positivos implican partes hidrofóbicas de la proteína

Page 3: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 3 -

Figura 1. Perfíl de hidrofobicidad de una proteína globular

Perfiles similares a este sirven para predecir la exposición o no de un residuo a

partir unicamente del conocimiento de la secuencia. Modificaciones de estos perfiles,

combinados con reconocimiento de secuencias dianas se han empleado para reconocer

sitios de glicosilación de proteínas, de sulfatación, miristinelización,..., o de proteínas

especialmente sensibles a la degradación proteolítica (p.ej proteínas con secuencias

PEST expuestas). También son útiles en la predicción de determinantes antigénicos. Ver

el servidor de Swisprott para más detalles http://www.expasy.ch

Predicción de funcionalidad por similitud de secuencia

Se sabe que el grado de divergencia en el espacio de secuencias es mucho más

grande que el del espacio de estructuras y de función. Eso hace que si 2 secuencias

tienen una secuencia muy parecida tengan grandes posibilidades de tener la misma

funcionalidad y en bastantes ocasiones la misma estructura. Por otro lado, se ha

constatado que existen determinadas pautas en secuencia que están asociadas a distintas

funciones. Estas dos observaciones dan lugar a dos familias de técnicas de predicción de

funcionalidad por similitud de secuencia:

i) Técnicas de similitud global. Aquí la idea es alinear la proteína problema con

toda la base de datos (programas como BLAST o FASTA permiten hacer esto

Page 4: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 4 -

con gran rapidez) de proteínas de función conocida, a menudo ordenadas en

familias funcionales. En resultado del programa es un listado de proteínas

similares en cuanto a la secuencia a la problema, con un índice estadístico que

reporta lo significativo de la similitud (un alineamiento será más significativo

cuanto mas perfecta sea la correspondencia de aminoácidos y cuanto mas

largo sea), y un listado que indica donde son parecidas las 2 proteínas (donde

se alinean) y donde no lo son. Si la comparación da resultados de similitud

significativa se asume que la proteína problema tendrá la misma función que

la proteína homóloga detectada. Esta técnica es la que constituye el método

fundamental de anotación de los genomas en los proyectos de secuenciación

masivos. Un ejemplo de Input de este tipo de búsqueda y su correspondiente

output están en la Figura 2. Cuando se quieren encontrar similitudes remotas

es a menudo necesario hacer ciclos iterativos que buscan relaciones entre dos

proteinas A y B no directas sino via la similitud con una tercera proteina C,

debilmente similar a las dos. Esto lo ejecutan progamas iterativos caso de

PsiBlast (Figura 3)

ii) Técnicas de similitud de segmentos característicos. Se ha detectado que

determinadas secuencias cortas de Aa están asociadas a determinadas

funcionalidades. Esto ha dado lugar a la generación de bases de datos como

ProSITE. Aquí por lo tanto no se valora la similitud global de la secuencia,

sino la presencia de secuencias cortas significativas de función. Para un

ejemplo de búsqueda ProSITE véase Figura 4. Destacar que los perfiles

ProSITE deben usarse con cuidado y siempre vigilando la significación

estadística de los “hits”, porque es comun encontrar matches a perfiles muy

cortos, con poca significación real.

INPUT BLAST QUERY

Page 5: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 5 -

Accession number or sequence

Enter a Swiss-Prot/TrEMBL accession number or a PROTEIN sequence in RAW format.

OUTPUT BLAST QUERY

Query length: 61 AA Date run: 2003-09-08 17:20:12 UTC+0100 on sib-blast.unil.ch Program: NCBI BLASTP 2.2.5 [Nov-16-2002] Database: XXtremblnew; XXtrembl; XXswissprot 1,249,251 sequences; 402,609,643 total letters Swiss-Prot Release 41.22 of 29-Aug-2003 TrEMBL Release 24.10 of 29-Aug-2003 TrEMBL_new of 29-Aug-2003

List of potentially matching sequences

Send selected sequences to

Include query sequence

Db AC Description Score E-value

tr Q8XMW7 Hypothetical protein CPE0571 [CPE0571] [Clostridium pe... 142 5e-34

tr Q8EMU9 Hypothetical conserved protein [OB2741] [Oceanobacillu... 74 2e-13

sp Q58481 YA81_METJA Hypothetical protein MJ1081 [MJ1081] [Metha... 69 8e-12

tr Q97KL0 Uncharacterized conserved protein YjbQ/UPF0047 family,... 69 8e-12

tr Q8R842 Hypothetical protein TTE2189 [TTE2189] [Thermoanaeroba... 66 7e-11

MNNFFKHTLETHTAAQSMSKITSYIREDIKNSNIENGIVVVYCPH

Taxonomic view NiceBlast view Printable view

Clustal W (multiple alignment) Enviar consulta

Page 6: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 6 -

Figura 2. Ejemplo de una por similitud de secuencia de una proteína problema

contra Swisprott/TREMBL

Taxonomy reports

Distribution of 63 Blast Hits on the Query Sequence

>gi|18309553|ref|NP_561487.1| conserved hypothetical protein [Clostridium perfringens] gi|18144230|dbj|BAB80277.1| conserved hypothetical protein [Clostridium perfringens str. 13] Length = 135 Score = 113 bits (283), Expect = 7e-25 Identities = 59/61 (96%), Positives = 59/61 (96%), Gaps = 1/61 (1%) Query: 1 MNNFFKHTLETHTAAQSMSKITSYIREDIKNSNIENGIVVVYCPHTTAGITINENADPDV 60 MNNFFKHTLETHT QSMSKITSYIREDIKNSNIENGIVVVYCPHTTAGITINENADPDV

Mouse-over to show defline and scores. Click to show alignments

Page 7: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 7 -

Sbjct: 1 MNNFFKHTLETHT-PQSMSKITSYIREDIKNSNIENGIVVVYCPHTTAGITINENADPDV 59

Figura 3. Ejemplo de los alineamientos óptimos de psiBlast obtenidos en el caso.

Calculado desde el servidor http://www.ncbi.nlm.nih.gov/blast/

Figura 4. Ejemplo de búsqueda de perfiles PROSITE en una proteína problema.

En este caso encuentra en la proteína la presencia de un prosite característico de

fibronectinas. Véase Expasy para una explicación de la gramática de los Perfiles

ProSite.

Técnicas de predicción de estructura secundaria

Existen muchos programas y servidores que predicen la estructura secundaria de

una proteína a partir de su secuencia. Todos ellos derivan del propuesto originalmente

por Chou y Fasman. En la actualidad encontramos decenas de servidores que realizan

cálculos de estructura secundaria, e incluso servidores de servidores por los que se

puede enviar al cálculo a varios programas y coger los resultados de consenso. Solo en

el web site de Swissprot encontramos más de una decena de estos servidores, que a

menudo se entrenan automáticamente cada vez que aumentan las proteinas de estructura

conocida depositadas en el Protein Data Bank (PDB:

http://www.rcsb.org/pdb/home/home.do). Se calcula que para proteínas globulares el

ScanProsite Scan Swiss-Prot with a PROSITE pattern Swiss-Prot Release 41.22 of 29-Aug-2003: 133723 entries PDOC00965 PS01253 FIBRONECTIN_1 Type I fibronectin domain. Pattern: C-x(6,8)-[LFY]-x(5)-[FYW]-x-[RK]-x(8,10)-C-x-C-x(6,9)-C Approximate number of expected random pattern matches in Swiss-Prot release 41.0 (122564 sequences): 0.18 [Ref: PMID 11535175] >P98140 (FA12_BOVIN) Coagulation factor XII precursor (EC 3.4.21.38) (Hageman factor) (HAF) (Fragment) [Bos taurus (Bovine)] (593 AA).

125 - 160 CfepqffrfFheneiWhRlepagvvk..CqCkgpnaq...C

Page 8: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 8 -

acierto es cercano al 80%, pero en realidad la precisión depende del tipo de proteína,

siendo mayor para proteínas citoplasmáticas ricas en hélice alfa.

La filosofía de los métodos es siempre la misma: i) exploración de las bases de

datos de estructura 3-D (PDB), ii) elaboración de unas reglas de estructura, iii)

aplicación de las reglas a la proteína problema. Las reglas que se establecen pueden ser

de diverso tipo, pero siempre relacionan la estructura primaria con niveles superiores de

estructuración que van desde la secundaria a la terciaria. De todas las técnicas

estadísticas de predicción de estructura de proteínas comentaremos únicamente como un

ejemplo el método original de Chou y Fasman. Estos autores asumen que la estructura

secundaria de una proteína está en uno de estos 3 estados: hélice α, hoja β y giro. Al

analizar PDB (Biochemistry 17, 4277 (1978)) encontraron la distribución de residuos en

cada una de estas estructuras, de ella derivaron “propensiones” que representan la

tendencia intrínseca de un aminoácido a estar en una determinada estructura secundaria.

Las propensiones se insertan como reglas matemáticas para predecir la estructura

secundaria en “ventanas” de 5-6 residuos que se van desplazando un aminoácido cada

vez para cubrir toda la proteína.

Aminoacido P(α) P(β) P(turn)Ala 1,29 0,9 0,78Cys 1,11 0,74 0,8Leu 1,3 1,02 0,59Met 1,47 0,97 0,39Glu 1,44 0,75 1Gln 1,27 0,8 0,97His 1,22 1,08 0,69Lys 1,23 0,77 0,96

Val 0,91 1,49 0,47Ile 0,97 1,45 0,51Phe 1,07 1,32 0,58Tyr 0,72 1,25 1,05Trp 0,99 1,14 0,75Thr 0,82 1,21 1,03

Gly 0,56 0,92 1,64Ser 0,82 0,95 1,33Asp 1,04 0,72 1,41Asn 0,9 0,76 1,23Pro 0,52 0,64 1,91

Arg 0,96 0,99 0,88

Page 9: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 9 -

Figura 5. Propensiones de formar Estructuras secundarias método de Chou-Fasman.

Con estas propensiones individuales se calculan directamente las promedios en

ventanas que son las que permiten predecir la existencia o no a un tipo de estructura

(véase Figura 6). En la Figura 5 los residuos del primer grupo forman fácilmente helice

alfa, los segundos favorecen la hoja beta y los terceros los giros. Las prolinas raramente

están en hélices.

Figura 6. Reglas fundamentales de Chou-Fasman

Los métodos de predicción de estructura secundaria son rápidos y precisos.

Sirven no solo para asignar motivos estructurales sino para reconocer similitud en

proteínas que no son visibles, tener una idea del plegamiento global en algunos casos, o

incluso inferir aspectos de la función de la proteína. Presentan no obstante algunos

problema:

i) Son estadísticos, es decir funcionarán si la proteína se parece a lo que estaba

en la base de datos.

ii) Proporcionan solo información 2-D, no información tridimensional que es la

más útil

iii) Proporcionan información sólo sobre estructuras secundarias canónicas

(algunos métodos tienen más de 3 estados, pero son pocos). No entienden de

modificaciones estructurales sobre motivos canónicos.

iv) Son más precisas para hélices que para cadenas beta.

v) Son más precisas en proteína globulares citoplasmáticas.

• Cada secuencia con 6 o mas residuos y <P(α)> ≥1,03 y <P(α)> ≥ <P(β)> y que no tengan Pro son hélices α.

• Fragmentos de 5 residuos o más con <P(β)> ≥1,05 y <P(β)> ≥ <P(α)> será hoja beta

• Tetrapéptidos con <P(α)> < 0.9 y <P(turn)> > <P(α)> son posiblemente giros.

Page 10: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 10 -

vi) Pueden dar resultados incorrectos en caso de proteínas intrinsecamente

desordenadas.

vii) Como todos los métodos estadísticos permiten predecir, pero no entender

porqué.

Técnicas de predicción de fragmentos transmembrana

Las proteínas de membrana son muy difíciles de cristalizar, por lo que se conoce

aún poco sobre sobre su estructura. De hecho programas de diseño de fármacos enteros

que intentan obener fármacos contra, por ejemplo, receptores de membrana acoplados a

proteinas G, o sobre algunos canales iónicos, se deben realizar utilizando modelos de

estructura, no estructuras experimentales reales. La modelización es pues importante y

se inicia normalmente por la determinación de los fragmentos de transmembranas. Los

métodos que los predicen se basan en combinar algoritmos de homología con métodos

de predicción de estructura secundaria y perfiels de hidrofobicidad.. Todo ello da reglas

probabilísticas que también ayudan a la predicción. Son programas que pueden cometer

errores, pero que han sido clave en asignación funcional de muchos receptores de

membrana (véase por ejemplo

http://sosui.proteome.bio.tuat.ac.jp/cgi-bin/sosui.cgi?/sosui_submit.html). En tanto que

las familias funcionales de receptores, transportadores o iones tienen una alta homología

estructural (a menudo no de secuencia) la determinación de un determinado pattern de

segmentos transmebrana puede arrojar mucha luz sobre la funcionalidad de una proteína

problema.

Técnicas de predicción de dominios estructurales

Las proteínas suelen plegarse en torno a dominios estructurales que son regiones

globulares, típicamente de unos 100-150 residuos. Es muy importante conocer de una

proteína problema donde están los dominios, por diversas razones: i) zonas entre

dominio son sitios naturales de corte de proteínas que después se intentarán resolver por

NMR, ii) proteínas muy diferentes de modo global pueden tener por el contrario

dominios similares, iii) los dominios estructurales suelen tener implicaciones

funcionales e incluso nos pueden dar idea de cual ha sido la evolución de la proteína.

Page 11: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 11 -

Los métodos que predicen dominios a partir de secuencia suelen trabajar con

técnicas de homología a partir de alineamientos múltiples (alineamientos a nivel de

dominio de muchas proteínas de estructura conocida). Existen bases de datos específicas

de alineamientos múltiples de dominios como PFAM. Si encuentras una secuencia que

encaja en uno de estos alineamientos tienes una alta garantía que ese fragmento se

asigne a un dominio estructural. Para mejorar la precisión se añaden datos sobre la

presencia de determinadas pautas de estructura, p.ej la presencia de regiones de baja

complejidad de secuencia, regiones con péptido señal,... (véase

http://www.sanger.ac.uk/Software/Pfam/). Mediante este tipo de programas se pueden

anotar dominios en estructuras grandes de proteínas.

En el ejemplo de abajo se muestra un alineamiento múltiple que define un tipo

de dominios comunes a una famiila de proteínas (alfa-kinasa). Se pueden ver los

residuos que definen el dominio. Estos alineamientos son contra lo que nosotros

lanzaríamos nuestra proteína problema para que por su alineamiento (con respecto a ese

alineamiento global de referencia) tuviéramos la definición del dominio.

Q9P201/571-786

LLLKYSK...KSELWTAQETIVYLGDYLTVKKKGRQRNA.FWVHHLHQ......................

...............EEILGRYVGKDYKEQKGLWHHFTDVERQMTAQHYVTEFNKRLYEQNIPTQIFYIP

STILLILEDKTIKG.....CISVEPYILGEFVKLSNNTK.....VVKTEYKATEYGLAYGHFSYEFSNHR

DVVVDLQGWVTGNGKGLIYLTDPQIHSVD......QKVFTTNFGKRGIFYFFNNQHVECNEIC Q9P201

Q9HEI0/537-758 MLDRMME...SDTNMPVSVFGLNLCKRRTPFAKGALRLASFACTECSRS..............................RHVVKEFKTDGDDEDD.GSGNRSLAHLVDDMRSQALCKAFALEFNSLLADC..PEHNIDFVVTSCFKCNDRRGSQ...GKCMSIEPFLAGKFVKYNGNAGYANKEANLTHDPSNQAAQAFSHFTFERSRGRFLVCDLQGVG.......KTMTDPAIHTLDP...YRFSLSQTNLGAEGFMFFF..AYHECNHLC Q9HEI0 KMHA_DICDI/561-800 ILWEFDP...IINKWIRLSMKLKVERK..PFAEGALREA.YHTVSLGVGTDENYPLGTTTKLFPPIEMISPISKNNEAMTQLKNGTKFVLKLYKKEAEQQASRELYFEDVKMQMVCRDWGNKFNQKK.....PPKKIEFLMSWVVELIDRSPSSNGQPILCSIEPLLVGEFKKNNSNYG......AVLT.N.RSTPQAFSHFTYELSNKQMIVVDIQGVD.......DLYTDPQIHTPD.....GKGFGLGNLGKAGINKFI..TTHKCNAVC P42527 O76739/34-235 IKWELTIGDDLKPKWTHSIVCVSIEKT..PFAKGSCRTA.HKLKDWSQP...................................DQGLVGKFST...NKKTTRDSYFTDVLMQTFCAKWAEKFNEAK.....PPKPITFLPSYVYELIDHPPP....YPVCGGEPFIEGDYKKHNNNSG......YVSS.DARNTPQSFSHFSYELSNHELLIVDIQGVN.......DFYTDPQIHTKS.....GEGFGEGNLGETGFHKFL..QTHKCNPVC O76739 KMHB_DICDI/119-320 IKWEYDP.YTTTAQWTCTATLVKVEPV..PFAEGAFRKA.YHTLDLSK.....................................SGASGRYVSKIGKKPTPRPSYFEDVKMQMIAKKWADKYNSFK.....PPKKIEFLQSCVLEFVDRTSS....DLICGAEPYVEGQYRKYNNNSG......FVSN.DERNTPQSFSHFTYEHSNHQLLIIDIQGVG.......DHYTDPQIHTYD.....GVGFGIGNLGQKGFEKFL..DTHKCNAIC P90648 EF2K_RAT/112-317 TRHRYNA...VTGEWLKDEVLIKMASQ..PFGRGAMREC.FRTKKLSN...............................FLHAQHWKGASNYVAKRYLEPVDRSVYFEDVQLQMEAKLWGEEYNRHK.....PPKQVDIM

Page 12: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 12 -

QMCIIELKDRQGQ.....PLFHLEHYIEGKYIKYNSNSG......FVRDDNIRLTPQAFSHFTFERSGHQLIVVDIQGVG.......DLYTDPQIHTEK.....GTDFGDGNLGVRGMALFF..YSHACNRIC P70531

(…)

Figura 7. Ejemplo de alineamiento múltipe que aparece en una familia PFAM

http://www.sanger.ac.uk/Software/Pfam/.

El tipo de output que obtendremos final sería similar a:

Description from Swissprot for PIG1_BOVIN :

1-phosphatidylinositol-4,5-bisphosphate phosphodiesterase gamma 1(ec 3.1.4.11) (plc-gamma-1) (phospholipase c-gamma-1) (plc-ii)(plc-148)

[1291 residues]

PH 33-142

Context: efhand 156-184

PI-PLC-X 321-465 SH2 550-639

SH2 668-741 SH3 794-849

PH 864-931 PI-PLC-Y 952-1070

C2 1090-1177

Key

signal peptide:

>

pfamA:

>

Context:

>

smart:

>

transmembrane:

>

low complexity:

>

coiled coil:

>

pfamB:

Source Domain Start End

Pfam PH 33 142

Pfam PI-PLC-X 321 465

Pfam Pfam-B_30023 484 549

Pfam SH2 550 639

Pfam SH2 668 741

Pfam SH3 794 849

Pfam PH (Partial) 864 931

Pfam PI-PLC-Y 952 1070

Pfam C2 1090 1177

Pfam Pfam-B_37780 1212 1291

Smart PH 33 144

Smart PLCXc 320 464

Page 13: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 13 -

Figura 8. Output de PFAM para 1-phosphatidylinositol-4,5-bisphosphate phosphodiesterase

gamma 1(ec 3.1.4.11) (plc-gamma-1) (phospholipase c-gamma-1) (plc-ii)(plc-148).

Estos métodos de asignación de dominios son muy potentes y no precisan

conocimiento estructural de la proteína. Sus limitaciones se encuentran en los casos de

proteínas de estructura inusual o sin homólogos conocidos.

Técnicas de predicción de estructura terciaria por homología

Es posible predecir con bastante precisión la estructura tridimensional de una

proteína a partir de la secuencia cuando la proteína problema tiene una identidad de

secuencia superior al 30% con una proteína de estructura tridimensional conocida. Los

modelado por homología se basan en superponer lo mejor posible los backbones de las

proteínas problema y molde ajustando en lo posible las cadenas laterales coincidentes.

Los segmentos que no se sobreponen se simulan a partir de datos estructurales de

motivos tipo (p.ej loops), el conjunto se optimiza y relaja para evitar violaciones de

esqueleto covalente o choques de cadenas laterales. Un proceso de modelización de

proteínas. Por ejemplo con el programa MODELLER o con el sistema automático de

Smart PH 489 680

Smart SH2 548 645

Smart SH2 666 747

...

Page 14: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 14 -

SWISPROT dan no únicamente una solución sino varias que se “puntúan” en función

de criterios fundamentalmente energéticos (i.e. que tan estable parece el modelo

generado). Todas las diferentes soluciones generadas deben ser evaluadas en cuanto a su

capacidad para explicar datos experimentales y de hecho es posible incorporar datos

experimentales como restricción en la creación de los modelos.

La técnica es muy poderosa, cuando la homología es fuerte el “backbone: i.e la

cadena principal” modelada se parecerá mucho a la problema. Los problemas se

presentan a dos niveles:

i) Los modelos no suelen tener la misma calidad en las cadenas laterales

que en la cadena principal.

ii) No todas las partes de la estructura estan igual de bien modeladas. Por

ejemplos los loops suelen no ser muy fiables.

iii) Cuando la identidad de secuencia baja por debajo del 30% entramos en

una zona (twilight-zone) donde está poco clara la calidad del modelo.

Cuando bajamos del 20% de identidad la técnica no es aplicable.

iv) Solo es fiable cuando se aplica a nivel de dominio. Proteínas con varios

dominios no son modeladas con fiabilidad.

Técnicas de predicción de estructura terciaria por threading

Las técnicas de threading sirven para modelar estructuras en casos en los que la

identidad de secuencia es muy baja. También sirven para hacer asignación de función a

proteínas para las que los métodos de secuencia no encuentran homólogos cercanos.

Son técnicas de alto riesgo, que solo se justifican cuando no existen otras alternativas.

La idea fundamental de las técnicas de threading (ej. THREADER) es la de que la

proteína problema, a pesar de no tener identidad notable con ninguna de las bases de

datos tendra un motivo de plegamiento (fold) que será alguno de los que se han

reportado en las bases de datos de estructura como CATH o SCOP. Estas bases de datos

clasifican todas las proteínas definiendo diferentes tipos de FOLD canónicos. La

clasificación se hace en diversos niveles de jerarquía. Por ejemplo en CATH tenemos

descripciones jerárquicas como la que muestra la Figura 9 que permiten agrupar tipos de

folds para usar como referencia en cálculos de Threading

Page 15: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 15 -

Figura 9. Ejemplo de clasificación (3

primeros niveles) de la base de datos

CATH de C.Orengo.

Los métodos de threading

colocan la cadena de la proteína

problema en cada uno de los posibles

folds de referencia y evalúan que tan

estable es la secuencia problema en

cada uno de los folds. El más estable se

recuperará como el plegamiento

candidato y la proteína(s) que den este

fold se considerarán relacionadas con la

proteína problema. La técnica es poco precisa, y trabaja únicamente a nivel de dominio

estructural.

Existen diferentes programas que permiten realizar “threading” e incluso

servidores que envían el cálculo a diferentes programas y derivan una predicción

consenso. Por ejemplo www.bioinfo.pl, www.sbc.su.se o www.sbg.bio.ic.ac.uk).

Métodos de predicción ab initio a partir de potenciales estadísticos.

Representan la frontera entre métodos estadísticos y físicos. Tratan de predecir

cual será la estructura terciaria de proteínas a partir de potenciales estadísticos que dan

idea de la preferencia de un residuo por un determinado entorno y algunas otras reglas

sobre, por ejemplo similitudes en pequeños motivos de estructura, cercania a estructuras

conocidas etc. Programas como Rossetta de D.Baker

(https://www.rosettacommons.org/) han permitido obtener modelos “ab initio” de

estructura de proteínas pequeñas y en algun caso predecir a priori cual seria la estructura

y la función de una proteína totalmente diseñada in silico sin ningún tipo de similitud

con ninguna proteína conocida. Son métodos no obstante aplicables únicamente a

Page 16: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 16 -

proteínas pequeñas y globulares y que aún en estos casos tienen un elevado nivel de

riesgo y requieren un nivel de experiencia muy alto en su uso.

Los potenciales estadísticos que alimentan métodos como ROSSETTA se

derivan de observar la distribución global y relativa de aminoácidos en proteínas a partir

de lo que se deriva un conjunto de funciones que describen las posiciones relativas mas

comunes de pares de residuos. Los potenciales estadísticos se implementan en

programas como PROSA-II (https://prosa.services.came.sbg.ac.at/prosa.php) que

permiten determinar lo estable que está un determinado residuo en su entorno proteico

teniendo en cuenta como son otros miles de entornos proteicos. Los perfiles tipo

PROSA no solo se emplean en cálculos ab initio de estructura de proteínas, sino que son

muy empleados en el refinado de estructuras experimentales por NMR o Rayos X para

determinar la posible existencia de errores (véase ejemplo de perfiles PROSA en la

Figura 10).

Figure 10. Perfil de PROSA representado estabilidad de residuos en una proteína.

Técnicas de predicción de proteínas intrinsecamente desordenadas

Total

Hidrophobic

Cβ-Cβ

http://lore.came.sbg.ac.at:8080/CAME/CAME_EXTERN/ProsaII/index_

Very stable low stability

Page 17: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 17 -

Recientemente se ha detectado que una parte de las proteínas funcionales carecen

intrinsicamente de toda o parte de esctructura definido, adoptándolas en muchos casos

para ineraccionar con ligandos. En bacterias se cree que es sobre un 5% pero para

eucariotas evolucionados se cree que llega al 40%. Si nos centramos en proteinas de

señalización se cree que se llegaria al 60-70% en organismos como el humano. Que una

proteína sea intrisecamente desordenada no quiere decir que toda ella carezca de

estructura (en algún caso si, ver Figura 11), sino que tiene grandes segmentos sin

estructura, que coexisten a veces con cores estructurales muy marcados.

La predicción de IDP (intrinsically disordered proteins) se basa en algunas

características comunes de las proteínas desordenadas, por ejemplo, contenido bajo de

residuos hidrofóbicos y alto en residuos cargados. También es común que muestren

grandes regiones de baja complejidad, es decir segmentos repetidos con solo muy poca

variación de aminoácidos y una baja predicción de estructura secundaria clásica. Hay

diferentes programa para la predicción de IDP. Algunos de los más usados son

posiblemente IUPRED (Bioinformatics 2005, 21, 3433; http://iupred.enzim.hu/),

DISPROT (http://www.disprot.org/ ) o DisEMBL (http://dis.embl.de/). Un detalle del

tipo de output que producen lo teneis en la Figura 12.

Figura 11. Comparación entre los “ensembles” de NMR de una proteína

intrinsecamente desordenada y una plegada tradicional.

Page 18: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 18 -

Figura 12. Imagen resultante de DisEMBL donde se pueden observar diferentes

indicadores de probabilidad de desorden a lo largo de la secuencia, mostrándose

probabilidad alta de desorden en el segmento 20-100 de la proteína.

Page 19: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 19 -

METODOS MICROSCOPICOS/FISICOS (de simulación)

Pretenden predecir y simular la estructura y el comportamiento de las

macromoléculas, empleando para ello las reglas elementales de la física y de la química.

Existen dos grupos de técnicas microscópicas claramente diferenciadas: i)

técnicas derivadas de la mecánica cuántica y ii) técnicas derivadas de la mecánica

clásica. Las dos técnicas tienen el mismo objetivo: describir el sistema a nivel atómico,

pero las diferencias entre ellas son claras. La mecánica cuántica introduce los grados de

libertad de núcleos y electrones, mientras que la mecánica clásica considera únicamente

la posición de los núcleos. La mecánica cuántica calcula las interacciones moleculares

rigurosamente, basándose en primeros principios, mientras que la mecánica clásica se

basa en el uso de campos de fuerza empíricos. La mecánica cuántica supone que las

partículas se ven gobernadas por las leyes básicas de la física cuántica, mientras que la

mecánica clásica supone que las moléculas son partículas clásicas gobernadas por las

leyes de la mecánica Newtoniana.

MECANICA CLASICA

La energía de una molécula se expresa como una función únicamente de las

posiciones de los núcleos. No se consideran por lo tanto los electrones de modo

explicito, lo que simplifica mucho el cálculo con respecto a la mecánica cuántica.

La energía del sistema se expresa no como un complejo conjunto de ecuaciones

diferenciales como en la mecánica cuántica, sino de manera mucho más simple, a partir

de un conjunto de ecuaciones simples (el “force-field”) que relacionan las posiciones

relativas de los núcleos con la energía del sistema. Estas ecuaciones deben introducir de

modo implícito el efecto de los electrones. Por ejemplo, los electrones de un enlace que

une dos átomos no se incluyen en el cálculo, pero su efecto (mantener unidos los 2

átomos) se consigue reproducir introduciendo una ecuación de tipo parabólico que haga

que los 2 átomos tiendan a estar a una distancia propia de un enlace s.

Page 20: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 20 -

Las ecuaciones del force-field se escogen a partir de evidencias experimentales.

Por ejemplo, en el caso comentado anteriormente, sabemos que al alargar o acortar el

enlace entre 2 átomos se produce un aumento de la energía, la cual sigue un perfil que

se representa según una función de Morse. Este perfil puede obviamente obtenerse a

partir de cálculo cuántico, pero es también fácil reproducirlo en las cercanías de la

distancia de equilibrio por un potencial armónico como el de Hooke (Kstr(l-l o)2).

Figura 11. Ejemplo de la dependencia de la energía con la longitud de enlace (Morse).

Figura 12. Ejemplo de la dependencia de la energía con la longitud de enlace (Hooke).

020406080

100120140160180200

Ene

rgy

Bond length

Morse

01020304050607080

Ene

rgy

Bond length

Hooke

Page 21: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 21 -

Nótese que cada tipo de enlace tendrá una constante de fuerza (K) y una

distancia óptima de equilibrio (lo). Así un enlace doble C=C tendrá una distancia más

corta que un enlace C-C simple, y más larga que un enlace triple C≡C. Asimismo, la

constante de fuerza del enlace triple será más grande que la del doble y esta más que la

de un enlace sencillo. De esta manera vemos como podemos ir describiendo las distintas

interacciones que existen entre núcleos empleando ecuaciones empíricas sencillas.

El conjunto de ecuaciones que expresan la energía en función de las coordenadas

nucleares es el “force-field”. Su forma general es la que se muestra más abajo:

Donde distinguimos los “bonded-terms” (términos de enlace), los non-bonded-terms

(términos de no-enlace) y “otros”.

Interacciones de enlace

Son las que se median por enlaces covalentes. Incluyen:

Stretching. Representa la resistencia de dos átomos enlazados a variar su distancia de

enlace. Se suele representar por ecuaciones parabólicas del tipo del potencial de Hooke.

La constante de fuerza da idea de la deformabilidad del enlace y la distancia de

equilibrio de su longitud.

Bending. Es la interacción que nos da la resistencia de tres átomos enlazados

consecutivamente a variar su ángulo de equilibrio. Se suele representar por ecuaciones

parabólicas del tipo del potencial de Hooke. La constante de fuerza da idea de la

deformabilidad del ángulo y la distancia de equilibrio de su amplitud.

othernbtorbndstr EEEEEE ++++=

Bonded-terms Non bonded-terms

Other restrains

2)( obonds

strstr llKE −= ∑

Page 22: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 22 -

Torsión. Es el término que se emplea para representar la energética de la rotación

respecto a enlaces químicos. Suele representarse por una serie de Fourier con términos

de distinta periodicidad (normalmente 1,2, 3).

Por ejemplo la rotación del etano (Figura 13) respecto al enlace C-C será

representado por un solo término de Fourier de periodicidad 3, mientras que la rotación

respecto al enlace C=C del eteno lo será por un término de periodicidad 2 (Figura 14).

Figura 13. Ejemplo de torsión de periodicidad 3.

Donde V3 es el potencial de la barrera (8 en la Figura 17), 3 es la periodicidad y F es el

ángulo diedro

Periodicidad 3

0

2

4

6

8

10

0 45 90 135

180

225

270

315

360

degrees

Ene

rgy

2)( oangles

angbnd KE Θ−Θ= ∑

)3cos1(21

3 Φ+=∑∑=tor

dih

ntor

VE

Page 23: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 23 -

Figura 14. Ejemplo de torsión de periodicidad 2.

Donde el signo negativo en el coseno sirve para simular el cambio de fase en la

serie de Fourier de periodicidad 2. Véase Figura 18.

En general, podemos considerar que la torsión se expresará como una expansión

de términos de Fourier de orden 1, 2 y 3.

Interacciones de no-enlace

Son las interacciones entre átomos que están separados por más de 3 enlaces covalentes.

En diferentes force-fields se encuentran diferentes ecuaciones dentro de este término.

No obstante, considerando los campos de fuerza más sencillos vemos que existen

Interacciones electrostáticas. Representan las interacciones entre las distribuciones de

carga de los distintos átomos de la molécula. Suelen representarse por un simple

Periodicidad 2

0

2

4

6

8

10

0 45 90 135

180

225

270

315

360

degrees

Ene

rgy

)2cos1(21

2 Φ−=∑∑=tor

dih

ntor

VE

)cos1(2

3

1

γ−Φ+=∑∑=

nV

Etor n

ntor

Page 24: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 24 -

potencial Coulómbico donde Rmn es la distancia entre los átomos y Qm, Qn son las

cargas centradas en los mismos. La constante dieléctrica ε sirve para introducir efecto

de “screening” electrostático del solvente.

Figura 15. Ejemplo de un potencial electrostático atractivo y otro repulsivo.

Interacciones de van der Waals. La interacción de van der Waals es usado en los force-

fields con un fin doble: i) evitar la “fusión” de átomos no unidos de carga de signo

opuesto, ii) representar las interacciones atractivas a corta distancia fruto de las fuerzas

dispersivas. El perfil clásico de una interacción de van der Waals es el que se muestra

más abajo, que se suele representar con una parte repulsiva a muy cortas distancias que

depende normalmente de la potencia 12 de la distancia interatómica, mas un término

atractivo que actúa básicamente a distancias intermedias que depende de la potencia 6

de la distancia interatómica.

Coulomb potential

-1000

-500

0

500

1000

0,5

0,7

0,9

1,2

1,6

2 2,4

2,8

3,2

3,6

4

Distance

Ene

rgy

∑=nm mnmn

nmele RR

QQE

, )(ε

−=

ji ij

ij

ij

ijvw R

C

R

AE

,612

Page 25: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 25 -

Donde Aij y Cij son parámetros que definen la interacción de van der Waals

entre átomos. Normalmente se calcula a partir de reglas combinatorias como la que

mostramos más abajo:

ε aquí representa la “dureza” del átomo es decir que tan atractor es a largas distancias y

repulsivo a cortas. Rvw es el radio de van der Waals que define el tamaño del átomo, es

decir donde deja de ser atractivo y donde repulsivo el potencial.

Figura 16. Perfil con la distancia de una interacción típica de van der Waals. En azul

aparece la interacción total, en magenta la repulsiva y en amarillo la atractiva.

Parametrización

-10

-5

0

5

10

15

20

2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 3,8 4

Ene

rgy

distance

Partición van der Waals

122/1 )()( jvw

ivwjiij RRA += εε

62/1 )()(2 jvw

ivwjiij RRC +×= εε

Page 26: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 26 -

Los force-fields contienen toda una serie de parámetros que definen los diversos

tipos de interacción y que deben ser conocidos antes de realizar el cálculo. El proceso de

determinación de estos parámetros es lo que se conoce como parametrización, y es una

de las etapas básicas en el desarrollo de un force-field. La parametrización se hace

siempre ajustando los cálculos de mecánica clásica a otros datos de más calidad, que

pueden ser los derivados de la mecánica cuántica, o de medidas experimentales.

Stretchings y bendings: Se pueden derivar de cálculos cuánticos en los que se

perturbe los valores de equilibrio de enlaces y ángulos, o bien del análisis de las

matrices de fuerza cuánticas del sistema. Experimentalmente se derivan de datos de

espectroscopia IR (constantes de fuerza) y de datos de microondas, rayos X y otros.

Torsiones. Se pueden determinar a partir de datos cuánticos ajustando los

perfiles de rotación. Experimentalmente son más dificiles de obtener, normalmente se

derivan a partir de datos de espectroscopía de NMR.

Electrostático. Las cargas se derivan a partir normalmente de cálculos cuánticos

donde se calcula la densidad de carga y se integra sobre los núcleos. Experimentalmente

es difícil, pero pueden ajustarse a partir de datos sobre densidades electrónicas

derivadas de Rayos X, o bien por ajuste de datos clásicos de una simulación de un

líquido a su comportamiento experimental (Figura 21).

Van der Waals. Se pueden determinar cuánticamente a partir de perfiles de

interacción entre dos moléculas, o bien experimentalmente a partir de datos de

empaquetamiento cristalino, o bien por ajuste de datos clásicos de una simulación de un

líquido a su comportamiento experimental.

METODOS QUE EMPLEAN LA MECANICA CLASICA

El force-field permite expresar la energía de la molécula como una función de

las coordenadas de los núcleos. Esta información puede ser procesada de diversas

maneras dando lugar a una serie de técnicas

Page 27: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 27 -

Mecánica molecular (MM). La técnica clásica más sencilla. Su objetivo es

encontrar la disposición espacial de los núcleos más estable, esto es, la que minimiza la

energía del sistema.

Dinámica molecular (MD). La información sobre la energética del sistema se

procesa para obtener las fuerzas que actúan sobre cada átomo. Estas fuerzas son

entonces usadas para determinar las trayectorias de cada átomo (esto es las posiciones

que los átomos van tomando a lo largo del tiempo).

MECANICA Y DINAMICA MOLECULAR

MARCOS DE APLICACION

Las técnicas de MM y MD al estar basadas en mecánica clásica presentan una serie de

ventajas e inconvenientes con respecto a las técnicas de mecánica cuántica:

i) Si los parámetros que se incorporan al force-field son buenos los resultados

son de una alta calidad.

ii) Es mucho más rápida que la mecánica cuántica, lo que permite estudiar

sistemas de gran tamaño, e incluso analizar su comportamiento a lo largo del tiempo. En

mecánica clásica se han llegado a estudiar sistemas con decenas de millones de átomos

durante periodos de nano to microsegundo, mientras que en mecánica cuántica es dificil

estudiar (estáticamente) mas de unas decenas.

Las limitaciones son obvias:

i) Todos los resultados dependen de la calidad y la transferabilidad del force-

field.

ii) No son aplicables a reacciones químicas o al estudio de cualquier proceso que

deba ser descrito teniendo en cuenta la naturaleza cuántica de las moléculas. Por

ejemplo sistemas fuertemente polarizados, con transferencia de carga, etc.

Page 28: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 28 -

Estas características son las que marcan sus campos de aplicación. Así para

moléculas pequeñas o para estudiar reacciones químicas se empleará preferentemente

las técnicas cuánticas. Las técnicas clásicas serán la elección en la mayoría de los casos

siempre que el sistema sea más grande de 100 átomos, no sufra reacciones o cambios en

la estructura covalente del mismo. En algunos casos, por ejemplo estudio de reacciones

enzimáticas, donde es preciso un nivel de descripción cuántico solo en una parte del

sistema, mientras que el resto se puede describir clásicamente se puede recurrir a

descripciones mixtas, los denominados métodos QM/MM.

METODOS DE MECANICA MOLECULAR

Estos métodos son los más simples, y tienen por objetivo encontrar la conformación de

mínima energía de un sistema y su energía. El diagrama de flujo de un programa de

mecánica molecular se muestra más abajo y consta de varias etapas: i) a partir de unas

coordenadas iniciales (R) se calcula la energía del sistema, ii) se calcula la derivada de

la energía respecto al movimiento de los átomos, iii) se trata de encontrar la

conformación del sistema que de un mínimo de energía (derivada primera 0, derivada

segunda positiva).

Page 29: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 29 -

Figura 17. Algoritmo general de un programa de mecánica molecular (MM).

El resultado de la minimización es una conformación estable del sistema y un

valor de mínima energía del mismo. La mecánica molecular se emplea no solo para

obtener una estructura energéticamente estable del sistema, sino para predecir

cualitativamente la energía de interacción entre 2 moléculas, por ejemplo, si tenemos

una proteína que interacciona con 2 moléculas A y B, es fácil calcular cual de ellas se

unirá más fuertemente restando las energías potenciales de los complejos proteína-A y

proteína-B.

La mecánica molecular es una técnica muy sencilla y computacionalmente muy

económica, lo que la hace muy eficaz en bioquímica. No obstante, esta técnica presenta

2 serias limitaciones ( a parte de las propias de cualquier técnica clásica).

i) El sistema se ve estáticamente. Esto es se obtiene una “foto” del mismo, en

el mejor de los casos en su forma más estable, pero no se tiene idea de su

flexibilidad, de su movilidad al largo del tiempo.

Epot

g= Epot/∂x

Algoritmo de búsqueda

{x} 0

Nuevo conjunto {x}1

Convergido?

Final

SI

NO

Page 30: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 30 -

ii) No se pueden introducir efectos de temperatura en el cálculo, de hecho la

descripción que se obtiene del sistema se corresponde a T= 0 K.

iii) Es imposible para un sistema grande estar

seguro de que el mínimo localizado es el

mínimo absoluto y no un mínimo relativo. El

sistema de optimización de geometría es muy

dependiente de las coordenadas del punto

inicial considerado en el proceso de

optimización. Véase Figura de la derecha

Figura 18. Superficie de Energía Potencial

Estas limitaciones son las que dieron lugar al desarrollo de las técnicas de

dinámica molecular.

TECNICAS DE DINAMICA MOLECULAR

La dinámica tiene como objetivo obtener una visión de las trayectorias que un

sistema sigue a lo largo del tiempo. Esto puede usarse para:

• OBTENER VISIONES PROMEDIO DE UN SISTEMA (ESTO

SE DENOMINA ENSEMBLE DE BOLTZMAN)

• OBTENER REPRESENTACIONES DE TRANSICIONES

TEMPORALES

• OBTENER DESCRIPCIÓN DE LA TERMODINÁMICA DEL

SISTEMA A PARTIR DE LA FÍSICA ESTADÍSTICA

• RELAJAR LA GEOMETRIA DE UN SISTEMA

• ESTUDIAR LA FLEXIBILIDAD DE EQUILIBRIO DE UN

SISTEMA

Page 31: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 31 -

• OBTENER REPRESENTACIONES DEL CAMBIO DE UN

SISTEMA DEBIDO A PERTURBACIONES EXTERNAS

El esquema de un programa de dinámica molecular es como el que se muestra

más abajo: i) para la conformación inicial (Ro) se calcula la energía potencial del

sistema (via force-field) y se estima la energía cinética (Ek=0.5 mv2) a partir de unas

velocidades iniciales generadas al azar para una temperatura dada (Ek= Etermica= 1.5 N

kbT) (donde N es el número de grados de libertad del sistema y kb es la constante de

Boltzman), ii) se deriva la energía (respecto R) sobre cada átomo para obtener las

fuerzas sobre cada átomo, iii) se calculan las aceleraciones sobre cada átomo, iv) las

aceleraciones se integran numéricamente una vez para dar las velocidades en un nuevo

intervalo de tiempo, v) las velocidades se integran para dar las nuevas posiciones

después de un cierto tiempo, vi) con las nuevas posiciones y velocidades se vuelve a

calcular las nuevas energías potenciales y cinéticas y se repite todo el proceso.

Nótese que al repetirse el proceso se va obteniendo un archivo con las posiciones

y velocidades de los distintos átomos del sistema a lo largo del tiempo (la trayectoria),

lo cual nos informa sobre la historia del sistema a lo largo del tiempo.

Page 32: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 32 -

Figura 19. Esquema general de un algoritmo de dinámica molecular

El esquema general se puede modificar para poder simular determinadas

condiciones experimentales como presión constante o temperatura constante. La

integración de las ecuaciones de Newton es numérica debido a la complejidad del

funcional empleado para expresar la energía. Para que la integración sea correcta debe

darse por lo tanto que la etapa de integración sea más pequeña que el movimiento más

rápido del sistema (las vibraciones de enlace de los átomos que está en la escala del

femtosegundo 10-15 seg). Eso significa que hacer una trayectoria de 1 nanosegundo

requiera realizar más de 1 millón. Se pueden restringir los movimientos más rápidos del

sistema (vibraciones de enlace), eso permite aumentar la escala de integración hasta 2

fts, pero aún así se requieren muchísimos cálculos para poder representar un proceso de

relevancia biológica. De hecho la MD es posiblemente la técnica que consume más

recursos computacionalmente en la actualidad. A pesar de ello es muy empleada por su

capacidad para describir sistemas clásicos a lo largo del tiempo.

METODOS FÍSICO DE COARSE GRAIN

Epot {xi}

Fi= -∂Epot/∂xi

ai= F i/mi

vi (t+dt)=v(t)i+ai dt

xi (t+dt)=x(t)i+vi dt

Page 33: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 33 -

Aún con los ordenadores más potentes la MD atomístic descrita más arriba es una

técnica costosa que cuesta que proporcione muestreos más allá del microsegundo (todo

y que ya en 2011 se publicaron trayectorias de 1 milisegundo), por lo que han sido

varios los grupos que han intentado desarrollar métodos que proporcionen información

dinámica más sencillos. De ellos comentaremos dos:

DINAMICA COARSE-GRAIN

Son cálculos idénticos a los comentados más arriba, pero donde se condensan átomos en

grupos a fin de: i) reducir los grados de libertad del sistema, ii) al tener partículas más

pesadas, que se moveran más lentamente, poder aumentar la etapa de integración. Hay

diferentes variantes de estos métodos, desde los que realizan una condensación muy

pequeña hasta los que simplifican todo un residuo en una partícula, o incluso un grupo

de 4 residuos. El uso de estos métodos requiere una reparmetrización total del campo de

fuerzas que utilice mucha información experimental sobre el sistema y en algun caso el

uso de restricciones experimentales, como por ejemplo el conocimiento sobre la

estructura secundaria de la proteína que se mantiene fija a lo largo de la simulación.

Cuando se emplean estos métodos normalmente se obvía una descripción atomistica del

solvente, que se introduce como un continuo (por ejemplo modificando la constante

dieléctrica), con lo que se reduce todavia más el tamaño del sistema simulado,

aumentando las posibilidades de simularlo por periodos más largos y de manera más

eficiente

ELASTIC NETWORK MODELS

Son métodos desarollados muy recientemente, extremadamente simples, pero

sorprendentemente útiles para describir la flexibilidad de proteínas y ácidos nucleicos

respecto a la posición de equilibrio. No son útiles para representar grandes movimientos

como folding/unfolding, pero si para estudiar como una macromolécula oscila respecto

a su conformación nativa. Emplean típicamente una descripción coarse-grain muy

simple, por ejemplo cada residuo se representa solo por la posición de su carbono alfa.

Page 34: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 34 -

Los métodos ENM asumen que una proteía reaccionará respecto a la perturbación de su

conformación de equilibrio. También asumen el denominado principio de “no

fustración” que implica que cada residuo está en un entorno favorable para él y que

reaccionará si este se quiere modificar. Se asume que la reacción de un residuo al

cambio de su entorno es armónica y que se puede evaluar a partir de ver como cambian

las distancias de ese residuo respecto a todos sus vecinos dentro de un cutoff

(típicamente 10 Å). La mayoría de los métodos emplean una relación cuadrática entre la

energia y la distancia (ver figura 19). Así el funcional de energía que modula la

respuesta del sistema a cambios en la geometria será:

Donde δij es una función discontinua si las dos particulas estan dentro del cutoff vale 1,

sino vale 0; Rij es la distancia entre la partícula i & j existente y Rij0 es la de equilibrio

que se toma como aquella encontrada en la estructura experimental. K es una constante

de fuerza que se puede ajustar para que las oscilaciones de la proteína reproduzcan las

detectadas experimentalmente o por cálculos de MD.

Figura 19. Representación coarse grain de una proteína y su funcional de interacciones

ENM, cada linea representará una interacción armónica.

E = δ ij Ki, j∑ (Rij − R

ij

0 )2

Page 35: TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE …jsancho/estructuramacromoleculas/Material para nuevas lecciones 2006...METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS ... en el interior

Revisión 23/10/13

- 35 -

Una vez se tiene este funcional, en lugar de hacer dinámica con él se suele emplear

técnicas de modos normales. Es decir como el potencial es harmónico centrado en la

estructura de equilibrio sabemos que está será un mínimo de energía con lo cual la

matriz de derivadas segundas (el Hessiano) nos dara las matrices de fuerza y con una

cierta manipulación de frecuencias. Asignaremos los movimientos de la proteína a esas

frecuencias de vibración (para una descripción mas detallada de la técnica miraos

http://mmb.pcb.ub.es/FlexServ/help/NMA.php).