Tesis_RGM

download Tesis_RGM

of 188

Transcript of Tesis_RGM

UNIVERSIDAD COMPLUTENSE DE MADRID FACULTAD DE CIENCIAS BIOLGICAS DEPARTAMENTO DE BIOLOGA VEGETAL I

MODELOS PREDICTIVOS DE RIQUEZA DE DIVERSIDAD VEGETAL. COMPARACIN Y OPTIMIZACIN DE MTODOS DE MODELADO ECOLGICO.MEMORIA DE TESIS DOCTORALPRESENTADA POR:

MANUEL RUBN GARCA MATEO

V. B DIRECTOR: Dr. JESS MUOZ FUENTE V. B CODIRECTOR: Dr. NGEL MANUEL FELICSIMO PREZ

MADRID 2008

UNIVERSIDAD COMPLUTENSE DE MADRID FACULTAD DE CIENCIAS BIOLGICAS DEPARTAMENTO DE BIOLOGA VEGETAL I

MODELOS PREDICTIVOS DE RIQUEZA DE DIVERSIDAD VEGETAL. COMPARACIN Y OPTIMIZACIN DE MTODOS DE MODELADO ECOLGICO

Memoria para optar al grado de DOCTOR en CIENCIAS (Seccin Biolgicas) que presenta el Licenciado: MANUEL RUBN GARCA MATEO Este trabajo ha sido dirigido por JESS MUOZ FUENTE (Real Jardn Botnico, CSIC). NGEL MANUEL FELICSIMO PREZ (Universidad de Extremadura).

MADRID 2008

Don Jess Muoz Fuente, Doctor en Biologa y Cientfico Titular del Real Jardn Botnico (CSIC) y Don ngel Felicsimo Prez, Doctor en Biologa y Profesor de la Universidad de Extremadura, informan de que:

La memoria titulada Modelos predictivos de riqueza de diversidad vegetal. Comparacin y optimizacin de mtodos de modelado ecolgico, que presenta Manuel Rubn Garca Mateo, Licenciado en Biologa, para optar al grado de Doctor, ha sido realizada en el Real Jardn Botnico (CSIC) bajo nuestra direccin, reuniendo todas las condiciones exigidas a los trabajos de tesis doctoral.

Madrid, 2 de septiembre de 2008

Fdo. Jess Muoz Fuente

Fdo. ngel Manuel Felicsimo Prez

A mis padres

If we knew what it was we were doing, it would not be called research, would it? Albert Einstein (1879 - 1955)

NDICE

NDICEAGRADECIMIENTOS ...................................................................................... 15 ABREVIATURAS ............................................................................................. 17 APLICACIONES INFORMTICAS INTRODUCCIN GENERAL...................................................................... 19

............................................................................. 21

1.1. El problema a investigar ................................................................... 23 1.2. Biogeografa y biodiversidad ............................................................. 25 1.3. El rea de estudio ............................................................................ 27 1.4. Sistemas de Informacin Geogrfica (SIG)........................................... 30 1.5. Modelado ecolgico .......................................................................... 31 1.5.1. Tipos de datos utilizados en modelado ecolgico ........................ 32 Variable dependiente .............................................................. 32 Variables independientes......................................................... 34 1.5.2. Modelos de distribucin de especies ......................................... 36 Algoritmos genticos ............................................................. 45 Distancia mtrica de Gower .................................................... 46 Envuelta medioambiental ....................................................... 48 Mxima entropa ................................................................... 48 Regresin logstica mltiple .................................................... 50 rboles de clasificacin y regresin .......................................... 51 MARS .................................................................................. 52 MARS-Multirrespuesta ............................................................ 54 1.5.3. Evaluacin y comparacin de mtodos ..................................... 54 Curva ROC ........................................................................... 57 1.6. Objetivos y estructura de la tesis ....................................................... 58

11

Modelos predictivos de riqueza de diversidad vegetal

PRIMERA PARTE: estudiando los efectos del tamao de muestra en losmodelos de distribucin de especies (MDE) ........................................... 612.1. Resumen ....................................................................................... 63 2.2. Introduccin ................................................................................... 64 2.3. Material y mtodos .......................................................................... 66 2.3.1. Variables dependientes .......................................................... 66 Datos con elevado nmero de presencias, ausencias

verdaderas y prevalencia desequilibrada ................................. 66 Datos con pocas presencias, sin datos de ausencias y prevalencia equilibrada.......................................................... 68 2.3.2. Variables independientes ....................................................... 69 2.3.3. Mtodo de modelado ecolgico ................................................ 69 2.3.3. Comparacin entre MDE ......................................................... 70 2.4. Resultados ..................................................................................... 70 2.5. Discusin ....................................................................................... 74

SEGUNDA PARTE: generando pseudo-ausencias y ausencias de grupofiables. Comparacin de tcnicas descriptivas y discriminantes ............ 813.1. Resumen ....................................................................................... 83 3.2. Introduccin ................................................................................... 84 3.3. Material y mtodos .......................................................................... 86 3.3.1. rea de estudio .................................................................... 86 3.3.2. Variable dependiente ............................................................. 87 3.3.3. Variables independientes ....................................................... 88 3.3.4. Mtodos de modelado ecolgico .............................................. 88 Tcnicas discriminantes .......................................................... 88 Tcnicas descriptivas .............................................................. 89 Tcnicas mixtas .................................................................... 89 3.3.5. Validacin de mtodos ........................................................... 89

12

NDICE

3.3.6. Diseo experimental .............................................................. 89 3.4. Resultados ..................................................................................... 92 3.4.1. Comparacin de los resultados de mtodos y tcnicas ................ 92 3.4.2. Comparacin entre ausencias de grupo y pseudo-ausencias ........ 95 3.4. Discusin ....................................................................................... 95 3.4.1. Comparacin de los resultados de mtodos y tcnicas ......................... 95 3.4.2. Comparacin entre ausencias de grupo y pseudo-ausencias .................. 95 3.4.3. Delimitacin de reas tampn al generar pseudo-ausencias al azar ............................................................................................. 98 3.4.4. Comparacin de los resultados entre especies ........................... 98 3.4.4. Conclusiones ........................................................................ 99

TERCERA PARTE: modelando patrones de diversidad. Comparacin dediferentes mtodos, estrategias, aproximaciones y corrientes ............ 1014.1. Resumen ..................................................................................... 103 4.2. Introduccin ................................................................................. 104 4.2.1. rea de estudio .................................................................. 104 4.2.2. Diseo de Espacios Naturales Protegidos (ENP) ...................... 104 4.2.3. La utilizacin de datos de herbario ......................................... 105 4.2.4. Opciones y mtodos de modelado ecolgico ............................ 105 4.2.5. Objetivos ........................................................................... 107 4.3. Material y mtodos ........................................................................ 107 4.3.1. rea de estudio .................................................................. 107 4.3.2. Variable dependiente ........................................................... 107 4.3.3. Variables independientes ..................................................... 108 4.3.4. Mtodos de modelado ecolgico a nivel de especie ................... 108 4.3.5. Opciones de modelado ecolgico a nivel de comunidad ............. 109 Estrategias ......................................................................... 109 Aproximaciones y corrientes ................................................. 110

13

Modelos predictivos de riqueza de diversidad vegetal

4.3.6. Mapas de riqueza especfica (diversidad ) potencial ................ 111 4.3.7. Patrones altitudinales de biodiversidad ................................... 112 4.4. Resultados ................................................................................... 113 4.4.1. Evaluacin de la consistencia de los MDE a nivel de especie ...... 113 4.4.2. Correlacin a nivel de comunidad .......................................... 116 4.4.3. Patrones altitudinales de biodiversidad ................................... 117 4.5. Discusin ..................................................................................... 121 4.5.1. Evaluacin de la consistencia de los MDE a nivel de especie ...... 121 4.5.2. Correlacin a nivel de comunidad .......................................... 123 4.5.3. Patrones altitudinales de biodiversidad ................................... 123 4.5.4. Principales conclusiones aplicables al modelado ecolgico ......... 127 4.5.5. Principales conclusiones para la conservacin en Ecuador ......... 128 4.6. Anexos ........................................................................................ 131 4.6.1. Anexo I: Tabla de resultados de AUC ..................................... 131 4.6.2. Anexo II: Flujo de trabajo .................................................... 139

RESUMEN Y CONCLUSIONES FINALES ........................................................... APNDICE .................................................................................................. REFERENCIAS BIBLIOGRFICAS

157 165

.................................................................... 169

14

AGRADECIMIETOS

AGRADECIMIENTOSQuiero expresar mi ms profundo agradecimiento a todos los que han contribuido de alguna manera en la consecucin de este trabajo. A la Fundacin BBVA, cuyo patrocinio econmico ha hecho posible la realizacin de la presente tesis doctoral. A los doctores Jess Muoz y ngel M. Felicsimo por dirigir este trabajo de investigacin y por la confianza que depositaron en m, a la que espero haber respondido. Me ensearon bastante sobre los SIG, especialmente en la programacin y automatizacin de procesos. A las personas que me recibieron con los brazos abiertos en el Missouri Botanical Garden (Ivn Jimnez, Mary Merello, Olga Marta Montiel, T. Patricia Feria, Trisha Consiglio, Sandra Arango, etc.); y por supuesto en Ecuador: Universidad Central del Ecuador (Ivn Morillo, Lorena), CLIRSEN, Herbario Nacional (Carlos Morales, Edison, David Neill, etc.), Fundacin Jatun Sacha, etc. Tener la oportunidad de viajar a estos lugares ha sido toda una experiencia personal por la que me considero afortunado, sobre todo por conocer a estas personas, que incluso pusieron a nuestra disposicin sus hogares. Al Dr. Antoine Guisan (Universidad de Lausanne) por el inters y la confianza mostrados hacia m. Al Dr. Miguel B. Arajo (Museo Nacional de Ciencias Naturales, CSIC) por atenderme tan amablemente y por el inters mostrado por mi trabajo. A la Dra. Jane Elith (Universidad de Melbourne) que tan amablemente nos cedi las sintaxis para poder ejecutar MARS-Multiresponse. A los Drs. Federico Fernndez y Jos Manuel Moreno (Universidad de Castilla-La Mancha) por la confianza depositada en m. A la Dra. T. Patricia Feria (Universidad Panamericana de Texas) por su apoyo y participacin en diferentes colaboraciones. A los Drs. Barbara Mackinder (Kew Royal Botanical Garden) y Jan Wieringa (Universidad de Wageningen) por el inters mostrado por mi trabajo y la participacin en diversas colaboraciones. Al Dr. Mario Sanz Elorza por las colaboraciones en las que permiti participar. Al Dr. Santiago Pajarn (Universidad Complutense de Madrid) por el apoyo mostrado en todo momento. Me gustara hacer una mencin especial a tanta gente sin cuyas contribuciones esta tesis no hubiera sido posible. Especialmente a los recolectores de todas las colecciones empleadas en el presente estudio, pero tambin a los especialistas y taxnomos que las identificaron y clasificaron. Sin el arduo y laborioso trabajo de

15

Modelos predictivos de riqueza de diversidad vegetal

ambos (colectores y taxnomos) la realizacin de esta tesis no hubiera sido posible. A todos los desarrolladores de las tcnicas y el software empleado, por el gran trabajo que llevan a cabo. Especialmente a mis padres y a mi hermana, por el apoyo que he tenido en ellos. A mis compaeros del Real Jardn Botnico por su inestimable ayuda. A todos ellos les agradezco su apoyo, simpata y compaerismo, especialmente a Manuel de la Estrella. Y aquellos que soportaron escucharme y supieron aconsejarme en los momentos ms difciles: Alberto, Alejandro, Alicia, Andrea, Beatriz lvarez, Beatriz Guzmn, Elena, Emilio, Gema, Ins, Juan, Katia, Manuel Maca, Mara Romeralo, Rafa, Tania y, cmo no, Mara. A mis nuevos compaeros de la Universidad de Castilla-La Mancha, que me han recibido con una gran simpata y compaerismo: ngel, Antonio, Amparo, Blanca, Carlos, Celia, Dani, David, Gonzalo, Ivn, Mara, etc. Especialmente a Csar e Itziar que revisaron detenidamente este trabajo. A todas las personas que he tenido la oportunidad de conocer en congresos, cursos, conferencias, etc., que convirtieron en algo mucho ms ameno y divertido estas actividades. Me hicieron pasar muy buenos momentos que guardar con un buen recuerdo. A todos mis amigos, cuya lista afortunadamente sera interminable (bilogos y no bilogos, sevillanos, ecuatorianos, madrileos, garciotuneros, bayoleros, toledanos, serranos, talaveranos, compaeros de viajes en el AVE, etc.). Muy especialmente a aqullos que supieron soportarme en los malos momentos y darme su apoyo: Beatriz, Carol, Cristina, David, Elena, Fabio, Fernando, Gema, Hctor, Manuel, Mara, Mario, Meme, Nacho, Raquel, Salud, Susana, Sandra, Tere, etctera. A todos los compositores y msicos, que sin saberlo, me hicieron ms amenas las interminables horas de trabajo. Casi cinco aos de trabajo suponen una extensa lista de gracias, espero que los que no estn reflejados aqu sepan perdonar mi olvido.

16

ABREVIATURAS

ABREVIATURASA continuacin presentamos un listado de las abreviaturas empleadas en esta tesis, su definicin y explicacin aparecen en el texto. ABREVIATURAS AG AML AUC CART CHN DMG ENP GAM GARP GIS GLM IPCC MARS MAXENT MDE NDVI P/A PA PS-A RLM ROC SIG TDES TDIS WGS84 SIGNIFICADO ausencia de grupo arc macro language area under the ROC curve classification and regression trees colecciones de historia natural distancia mtrica de gower espacio natural protegido generalised additive models genetic algorithm for rule set production geographical information systems generalised linear models Intergovernmental Panel on Climate Change multivariate adaptive regression splines maximum entropy modelo de distribucin de especies normalized difference vegetation index mapas de presencia/ausencia pseudo-ausencia regresin logstica mltiple receiver operating characteristic sistemas de informacin geogrfica tcnicas descriptivas tcnicas discriminantes world geodetic system 1984

17

APLICACIONES INFORMTICAS

APLICACIONES INFORMTICASA continuacin presentamos un listado de las diferentes aplicaciones informticas y su versin empleadas en el desarrollo de modelos de distribucin de especies.

SOFTWARE ArcCatalog ArcInfo ArcMap ArcView CART Desktop Garp Diva-GIS MARS

VERSIN 9.1 9.1 9.1 3.2 5.0

INFORMACIN SIG con licencia educativa (http://www.esri.com/) SIG con licencia educativa (http://www.esri.com/) SIG con licencia educativa (http://www.esri.com/) SIG con licencia educativa (http://www.esri.com/) Classification and regression trees (http://www.salford-systems.com/) Modelizador libre (http://www.nhm.ku.edu/desktopgarp/) SIG libre (http://www.esri.com/) multivariate adaptive regression splines (http://www.salford-systems.com/) Modelizardor libre(http://homepages.inf.ed.ac.uk/s0450736/maxent.html)

1.1.6 5.2 2.0

MAXENT R Simtest

2.1 2.4.1

Entorno de programacin libre (http://www.r-project.org/) Programa de estadstica de libre difusin(http://www.wsl.ch/staff/niklaus.zimmermann/programs/progs/simtest.f90)

SPSS

13.0

Programa de anlisis estadstico (http://www.spss.com/es/)

19

INTRODUCCIN GENERAL

INTRODUCCIN

1. Introduccin generalEsta tesis trata sobre el empleo de los modelos de distribucin de especies (MDE) en la investigacin de patrones de diversidad vegetal y su aplicacin en el diseo de zonas protegidas para la conservacin del medio natural. Para abordar este trabajo hemos querido basarnos en la enorme cantidad de datos almacenados en los herbarios y sus bases de datos asociadas. Tambin se busca una optimizacin de los distintos mtodos y opciones de modelado ecolgico con el objetivo de conseguir resultados fiables y aplicables a problemas concretos. Esta introduccin no pretende ser una revisin exhaustiva, sino que su objetivo es presentar la informacin necesaria para comprender el desarrollo de esta Tesis Doctoral. Nos hemos basado en los estudios de revisin ms importantes publicados hasta la fecha (Guisan & Zimmermann, 2000; Lobo, 2000; Elith, 2002; Guisan & Thuiller, 2005; Arajo & Guisan, 2006) y que pueden ser consultados para ampliar la informacin. Tambin se presentan los datos y la metodologa empleados.

1.1. El problema a investigarEl hombre ha ejercido una presin y perturbacin sobre el medio desde tiempos remotos. En la actualidad las actividades humanas estn provocado uno de los conflictos ambientales ms graves a los que ha tenido que enfrentarse la humanidad (Hoekstra et al., 2005; Loreau et al., 2006). La extincin de especies es un proceso natural. Sin embargo, en las ltimas dcadas hemos elevado la velocidad de desaparicin de especies de una forma exponencial. En toda la historia planetaria tan slo se han producido cinco procesos de prdida de biodiversidad tan rpidos como el actual, el ltimo de los cuales fue la desaparicin de los dinosaurios (Chapin et al., 2000), por lo que este proceso actual de perdida de especies ha sido denominado la sexta extincin (Leakey & Lewin, 1996). Este proceso puede significar la desaparicin de la mitad de especies que existen en la Tierra a finales de este siglo (Pimm et al., 1995; Jenkins, 2003). Se trata de un problema de mxima importancia al que tenemos que enfrentarnos y buscar soluciones. El procedimiento ms adecuado parece ser la creacin de espacios protegidos donde se asegure la persistencia de esta biodiversidad. Aunque por s solas estas reservas no son adecuadas para la conservacin de la naturaleza, s que deben ser el eje principal sobre el que giren las estrategias de conservacin regionales (Margules & Pressey, 2000). Estas reservas deben representar la biodiversidad a nivel regional y asegurar su permanencia (Margules & Pressey, 2000). Sin embargo, como veremos posteriormente, el

23

Modelos predictivos de riqueza de diversidad vegetal

concepto de biodiversidad es muy complejo, y la comunidad cientfica slo posee una vaga idea sobre los patrones de diversidad biolgica y los factores que influyen en su conservacin (Lobo, 2000; Sarkar & Margules, 2002). Parece ineludible que una buena red de espacios naturales protegidos debe estar basada en el conocimiento de los patrones espaciales de diversidad biolgica, y para solventar esta falta de conocimiento se emplean varias aproximaciones o abstracciones de la realidad: cartografas de tipos de vegetacin, sustratos geolgicos, datos climticos, imgenes de satlite, criterio de expertos, etc. (Ferrier, 2002; Sarkar & Margules, 2002). En los ltimos aos, con el desarrollo de potentes tcnicas estadsticas y los sistemas de informacin geogrfica (SIG), ha progresado rpidamente una nueva herramienta: los modelos de distribucin de especies (MDE) (Guisan & Zimmermann, 2000). Como veremos de forma ms detallada posteriormente, son modelos no subjetivos que predicen lo adecuada que es un rea para el desarrollo de una determinada especie en relacin con las condiciones ambientales (p. ej. clima, suelo, topografa, etc.). Estos modelos se han convertido en una herramienta muy potente y cada vez estn ms presentes en la bibliografa cientfica, siendo una de sus principales aplicaciones los trabajos relacionados con los patrones de biodiversidad y la biologa de la conservacin. Los MDE son una herramienta en pleno desarrollo y expansin; continuamente surgen nuevos mtodos, estrategias, aproximaciones, corrientes, etc., tanto a nivel especfico (Elith et al., 2006), como a nivel de comunidad (Wilson et al., 2005; Ferrier & Guisan, 2006). Todas estas opciones necesitan una evaluacin objetiva que compruebe si sus resultados son lo suficientemente fiables para su aplicacin en el mundo real. Uno de los objetivos de esta tesis es comparar y optimizar una gran variedad de opciones a la hora de realizar MDE fiables y aplicarlos a la investigacin de los patrones de biodiversidad y biologa de la conservacin. Sin duda, el otro gran problema que afecta a la conservacin de la biodiversidad, en la actualidad, es el efecto del cambio climtico. Este proceso supone una variacin del clima global, que puede deberse a procesos intrnsecos (por ejemplo grandes erupciones volcnicas), externos (por ejemplo variaciones en la radiacin solar), y ms recientemente la actividad humana. En la actualidad, la comunidad cientfica no duda de la existencia de un cambio en los patrones climticos del planeta, debido en gran parte a la actividad humana. En las conclusiones presentadas por el Panel Intergubernamental sobre el Cambio Climtico (IPCC, Intergovernmental Panel on Climate Change) en su cuarto informe (noviembre, 2007), se ofrecen datos clarificadores sobre las emisiones globales de gases de efecto invernadero y su relacin con el calentamiento global del planeta. Desde

24

INTRODUCCIN

pocas pre-industriales hasta la actualidad se ha registrado un aumento superior al 70% en la emisin de estos gases (1970-2000), lo que muy probablemente ha provocado el aumento global de temperatura observado en los ltimos aos: en once de los ltimos doce aos se han registrado los valores ms elevados de temperaturas medias de los que se tiene constancia desde 1850. Uno de los efectos ms inmediatos de este cambio son los desajustes en los sistemas biolgicos (Walther et al., 2002): desincronizacin entre los ciclos de especies relacionadas; cambios en las rutas y pocas en las migraciones; cambios drsticos en las condiciones ambientales, tan rpidos que no permiten la adaptacin de las especies a esta nueva situacin, o la migracin a zonas que presenten condiciones ms favorables para su desarrollo, etc. Todos estos procesos pueden llegar a suponer una enorme prdida en la biodiversidad global (Parmesan & Yohe, 2003; Thomas et al., 2004; Arajo & Rahbek, 2006). Es necesario una gestin de este cambio, evaluar sus efectos en la biodiversidad y un plan para estabilizar las emisiones de carbono que estn influyendo en este proceso (Pacala & Socolow, 2004). Esta tesis est integrada dentro de un amplio proyecto de investigacin titulado: Evolucin de las zonas de alta biodiversidad y endemicidad en Ecuador bajo un escenario de cambio global. Este proyecto considera los efectos del calentamiento global sobre los patrones de biodiversidad. El objetivo principal de este proyecto es la comparacin de zonas de mxima diversidad en la actualidad y en un escenario de cambio climtico en el ao 2080, de la cual surgirn diferentes tipos de actuacin y proteccin de la biodiversidad. Con este objetivo los mapas de diversidad potencial obtenidos en este trabajo para la actualidad sern comparados con modelos futuros (escenario de cambio climtico) y de esta forma definir las zonas de cambio y estabilidad en cuanto a la biodiversidad, datos que sern muy tiles para generar una nueva propuesta de Espacios Naturales Protegidos en Ecuador. Los modelos obtenidos en este trabajo, derivados de variables bioclimticas, tambin sern comparados con modelos obtenidos mediante la combinacin de dos tipos variables independientes: bioclimticas e imgenes de satlite, en particular el ndice de Vegetacin Normalizado (NDVI).

1.2. Biogeografa y biodiversidadDos conceptos importantes a lo hora de desarrollar este trabajo, en los que queremos hacer especial hincapi, son el de biogeografa y el de biodiversidad.

25

Modelos predictivos de riqueza de diversidad vegetal

La biogeografa es la ciencia que describe la distribucin de los organismos en el espacio y el tiempo y estudia los factores de los que depende. Uno de los objetivos de esta disciplina es el estudio de las reas potenciales para el desarrollo de especies, dentro del cual se encuadra esta tesis. Esta dimensin de la biogeografa tiene un inters intrnseco, pero adems tiene un inters aplicado en la gestin de espacios naturales y la conservacin de la biodiversidad, entre otros muchos, como veremos posteriormente. La biogeografa es una herramienta indispensable a la hora explicar la distribucin espacial de la biodiversidad. Esta disciplina aborda el estudio de cmo las especies han respondido a los diferentes cambios en las condiciones ambientales a lo largo de la historia geolgica del planeta (estado de no-equilibrio). Una de estas respuestas es la adaptacin espacial (Lobo, 2000), que consiste en el desplazamiento hacia lugares donde las condiciones ambientales son ms favorables. Esta respuesta es ms frecuente en especies que presentan una tasa de evolucin poco flexible. Como veremos posteriormente, este concepto nos ser til a lo hora de interpretar los modelos de distribucin de especies. Debemos considerar estos modelos como una primera aproximacin, una instantnea de la vida evolutiva de una especie. Cuando hablamos de biodiversidad no podemos referirnos exclusivamente al nmero de especies que habitan un rea determinada (riqueza de especies). Se trata de un concepto ms amplio que engloba otras caractersticas como la abundancia relativa de cada una de ellas. Las especies en general se distribuyen segn jerarquas de abundancia, desde muy abundantes hasta raras. Cuanto mayor es el grado de dominancia de unas y rareza de otras, menor es la biodiversidad de la comunidad. La biodiversidad tambin depende del grado de relaciones que se establecen entre todas las especies y de stas con el biotopo. La biodiversidad se muestra como heterogeneidad a otros niveles: gentico (variabilidad gentica de cada una de las especies), geogrfico (variabilidad de ecosistemas que existen en un determinado rea) y dentro de cada ecosistema (variabilidad espacial y temporal de la riqueza). El trmino biodiversidad surgi en 1985 como una contraccin de biological diversity, e inmediatamente adquiri relevancia: al ao siguiente se emple en un simposio, y en 1988 se public un libro titulado BioDiversity (Wilson, 1988), que le dio popularidad. Desde entonces se han dado multitud de definiciones para este concepto. La definicin aportada por Solbrig (1991) nos parece la ms apropiada en el contexto de este trabajo: propiedad de las distintas entidades vivas de ser variadas. Cada nivel de organizacin biolgico (gen, clula, individuo, comunidad o ecosistema) tiene ms de una manifestacin, siendo la diversidad una caracterstica

26

INTRODUCCIN

fundamental de todos los sistemas biolgicos, que tambin incluye la diversidad de las interacciones y procesos vivos que acontecen en cada uno de estos niveles (Sarkar & Margules, 2002). Por lo tanto, podemos decir que hay varios niveles de diversidad (Ricklefs & Schluter, 1994). En un primer nivel encontramos la diversidad alfa, o riqueza especfica, que es una funcin de la cantidad de especies presentes en un hbitat determinado. La diversidad beta, o diversidad diferencial, indica la variacin en diversidad en una serie de hbitats, y se estudia normalmente como la variacin encontrada a lo largo de un gradiente. Finalmente, la diversidad gamma, o diversidad regional, cuantifica la heterogeneidad de una regin dada. Existe tambin un componente gentico, o intraespecfico, reflejado mediante la cantidad de alelos diferentes que posee una especie (variabilidad genotpica) y los caracteres que codifiquen en el organismo (variabilidad fenotpica). La diversidad gentica es un componente muy importante de la diversidad; sin variacin gentica la evolucin a travs de la seleccin natural no sera posible. Como vemos la biodiversidad es un concepto muy amplio, imposible de abarcar en todos sus variantes. En este trabajo nos centramos en dos niveles: especie y comunidad (diversidad alfa) (Pereira & Cooper, 2006). Un concepto importante en la conservacin de la biodiversidad son los denominados puntos calientes de biodiversidad (biodiversity hot spots), concepto acuado por Myers (1988). Se trata de aquellos lugares en los que existe una gran cantidad de especies endmicas y un elevado grado de amenaza para su conservacin. En su conjunto representan una superficie inferior al cinco por ciento de la superficie terrestre y sin embargo albergan el 50% aproximadamente de las especies conocidas (Myers et al., 2000). Por tanto, deben representar una prioridad en las polticas de conservacin a nivel global. Dentro de uno de estos puntos calientes para la biodiversidad se encuentra Ecuador. Este trabajo se presenta como una aportacin a los planes estratgicos que se estn llevando a cabo a una escala regional y que en el futuro pueden suponer el establecimiento de una red efectiva de reservas para la conservacin de la biodiversidad (Margules & Pressey, 2000).

1.3. El rea de estudioEl rea de estudio es la Repblica de Ecuador, pas situado en Amrica del Sur, entre las longitudes 75 20 W y 81 W y las latitudes 1 30 N y 5 S, con una extensin aproximada de 283.000 km2. Administrativamente se divide en 22

27

Modelos predictivos de riqueza de diversidad vegetal

provincias (Fig. 1.1). Geogrfica, ecolgica y climatolgicamente podemos dividir Ecuador en cuatro reas naturales: La regin de la Costa es la zona ms occidental del pas. En general son zonas poco elevadas a excepcin de Cordillera Costera, cuyos picos varan entre los 400-600 m de altitud. Esta rea se ve sometida al efecto de El Nio, que produce alternancias entre pocas secas y fras, y otras hmedas y clidas. La zona andina, en el tercio central del pas, incluye las dos cordilleras paralelas que recorren el pas de Norte a Sur. Hay varios volcanes que superan los 5000 m, el ms alto de los cuales es el Chimborazo (6310 m). La regin amaznica es una penillanura con una orografa complicada de numerosos cerros. En esta zona la lluvia es constante durante prcticamente todo el ao. Las islas Galpagos, que no han sido incluidas en este estudio, conforman un archipilago de origen volcnico situado en el ocano Pacfico, 1.000 kilmetros al Oeste del continente formado por 13 islas principales, 17 islotes y decenas de rocas.

Figura 1.1. Mapa poltico del Ecuador continental.

La seleccin de este pas como zona de estudio se bas en los siguientes criterios: En uno de los pases con ms diversidad de todo el planeta, uno de los puntos calientes (hot spots) de la biodiversidad mundial, en donde de acuerdo con algunos autores se deben priorizar los objetivos para la conservacin para obtener una mayor rentabilidad de los fondos invertidos (Myers et al., 2000). En este pas habitan ms de 2.400 especies de

28

INTRODUCCIN

vertebrados y ms de 16.000 de plantas vasculares (Jrgensen & LenYnez, 1999; Kareiva & Marvier, 2003), algunos autores estiman que pueden existir ms de 20.000 especies de plantas vasculares (Balslev & Renner, 1989), de las que ms de 4.000 son endmicas del pas (Valencia et al., 2000). Se trata del pas con mayor diversidad florstica de todo el mundo en relacin a su tamao (Jrgensen et al., 1992). La elevada biodiversidad que posee este pas se ve seriamente amenazada por un gran nmero de factores (Dodson & Gentry, 1991; Best & Kessler, 1995; Mecham, 2001; Ulloa Ulloa & Jrgensen, 2004). Como, por ejemplo, deforestacin, incendios provocados, explotacin petrolera de la Amazona, presin de la poblacin rural, plantacin de palma africana, instalacin de camaroneras en el golfo de Guayaquil, etc. Es uno de los pases tropicales de los que mejor se conoce su diversidad vegetal. La cantidad de colecciones por unidad de superficie es muy elevada si lo comparamos con otros pases tropicales (Loiselle et al., 2008). Esta enorme cantidad de informacin se debe, en gran parte, al esfuerzo realizado por el Missouri Botanical Garden (St. Louis, EEUU) en este pas, representado en su base de datos TROPICOS (con 228.997 colecciones y 8.096 localidades, lo que representa 0,89 colecciones/km2) (Loiselle et al., 2008). La gran variedad medioambiental y orogrfica convierten a este pas en un lugar ideal para el desarrollo de modelos de distribucin de especies (Skov & Borchsenius, 1997). Se trata de un pas situado en reas tropicales, donde se han llevado a cabo pocos trabajos de esta ndole, la mayor parte de las aplicaciones relacionadas con los MDE se han llevado a cabo en zonas templadas. Adems, en los trpicos se pueden registrar las mayores tasas de prdida de biodiversidad a causa del cambio climtico (Deutsch et al., 2008) y por lo tanto deben ser el principal objeto de estudio. Adems, en reas tropicales es muy complicado conseguir datos sobre la distribucin de especies, y por lo tanto la modelizacin es realmente necesaria y prioritaria. Hasta la fecha, en este pas se han llevado a cabo varios trabajos enfocados hacia el modelado ecolgico (Skov & Borchsenius, 1997; Anderson & Martinez-Meyer, 2004; Vargas et al., 2004; Peralvo et al., 2005; Cuesta-Camacho et al., 2006a; Cuesta-Camacho et al., 2006b; Cuesta-Camacho et al., 2006c; Montenegro Armijos, 2006; Loiselle et al., 2008) pero en ninguno de ellos se trabaja con un nmero tan

29

Modelos predictivos de riqueza de diversidad vegetal

elevado de especies como en este estudio (397 especies y 17.064 colecciones de herbario).

1.4. Sistemas de Informacin Geogrfica (SIG)Para un tipo de trabajo como el presente son indispensables los SIG (Sistemas de Informacin Geogrfica) o GIS (Geographical Information Systems) en su acrnimo en ingles. Permiten almacenar, ver, manipular y analizar una gran cantidad de datos georreferenciados de una forma eficaz y rpida. En la enciclopedia libre (http://es.wikipedia.org/wiki/Sig) encontramos la

siguiente definicin para los SIG: una integracin organizada de hardware, software, datos geogrficos y personal, diseado para capturar, almacenar, manipular, analizar y desplegar en todas sus formas la informacin geogrficamente referenciada con el fin de resolver problemas complejos de planificacin y gestin. Tambin puede definirse como un modelo de una parte de la realidad referido a un sistema de coordenadas terrestre y construido para satisfacer unas necesidades concretas de informacin. Los SIG presentan dos formatos diferentes a la hora de representar la informacin: vectorial o rster. El formato rster presenta la informacin en forma de celdas regulares, cada una de las cuales contiene un valor determinado reflejo de la realidad. Se centra en las propiedades del espacio ms que en la precisin de la localizacin. El formato vectorial representa digitalmente una entidad determinada mediante tres tipos diferentes de caractersticas: puntos, lneas o polgonos. En este segundo tipo el inters se centra en la precisin de localizacin de los elementos. En este trabajo se han empleado ambos formatos: el vectorial para las variables dependientes (se trata de los puntos de presencia de la especie, basados en las coordenadas geogrficas) y el rster para las variables independientes (se trata de variables continuas de las que existen valores para todo el rea de estudio). Todos los datos empleados en este trabajo han sido proyectados en WGS84 (World Geodetic System 1984). Se trata de un sistema de coordenadas mundiales, que data de 1984, en la que por ejemplo se basan los sistemas de posicionamiento globales como el GPS. Un concepto esencial, que no debemos olvidar cuando trabajemos con un SIG y datos georreferenciados, son los metadatos. Se trata de una informacin anexa a los datos principales, como por ejemplo su extensin, autores, metodologa, proyeccin, datum, etc. Esta informacin siempre debe estar presente a la hora de

30

INTRODUCCIN

generar cualquier informacin georreferenciada. En este trabajo hemos generado sus correspondientes metadatos para cada uno de los modelos utilizados.

1.5. Modelado ecolgico (Ecological modelling)Podemos definir el modelado como la generalizacin, mediante simulacin o formulacin matemtica, de una realidad que slo conocemos parcialmente. En los ltimos aos las tcnicas de modelado cada vez se aplican ms en campos diversos de la biologa ecologa, evolucin, biogeografa, biologa de la conservacin, etc., en lo que se conoce como modelado ecolgico (ecological modelling). Como veremos posteriormente, consiste en buscar una relacin estadstica o matemtica entre los datos disponibles sobre la distribucin de una especie y diferentes variables que describen las condiciones ambientales, extrapolando esta relacin al resto del rea de estudio. Por lo tanto, para poder llevar a cabo estos modelos necesitamos datos georreferenciados de la distribucin de la especie que queremos modelizar, variables ambientales que cubran todo el rea de estudio y uno o varios mtodos que establezcan una relacin entre ambos. A continuacin examinaremos las distintas posibilidades que existen para cada uno de ellos y explicaremos detalladamente las seleccionadas para este trabajo. La importancia del clima para explicar la distribucin de animales y plantas se conoce desde hace mucho tiempo (von Humboldt & Bonpland, 1807), la combinacin del clima y otros factores se emplea para explicar la distribucin de la vegetacin en todo el planeta (Salisbury, 1926; Cain, 1944; Good, 1953; Holdridge, 1967; McArthur, 1972; Box, 1981; Walter, 1985; Woodward, 1987; Akin, 1991). El anlisis de estas relaciones es uno los objetivos centrales en ecologa y su cuantificacin es el punto central de los modelos de distribucin de especies (Guisan & Zimmermann, 2000). Antes de continuar, debemos saber que se trata de una herramienta compleja, que requiere integrar nociones de campos muy diversos: biologa (biogeografa, ecologa, botnica, zoologa, etc.), estadstica (inferencia, mtodos, validacin de mtodos, etc.), cartografa (georreferenciacin, proyecciones geogrficas, sistemas de coordenadas, etc.), bases de datos, informtica (manejo de una gran variedad de programas, programacin, etc.), teledeteccin, climatologa, sistemas de informacin geogrfica, etc. Muchas de estas materias o herramientas no estn incluidas en los planes de estudios de muchas universidades (Soberon & Peterson, 2004), a pesar del gran nmero de aplicaciones en el que pueden verse involucradas, lo que dificulta an ms su aprendizaje y puesta en marcha.

31

Modelos predictivos de riqueza de diversidad vegetal

1.5.1. Tipos de datos utilizados en modelado ecolgicoVariable dependiente (variable respuesta) La variable dependiente en este tipo de anlisis son los datos referentes a la distribucin de especies. Puede incluir slo datos de presencias (Zaniewski et al., 2002; Ottaviani et al., 2004; Olivier & Wotherspoon, 2006; Tsoar et al., 2007), de presencias y ausencias (Manel et al., 2001; Elith et al., 2006; Graham et al., 2008) o datos de abundancia (Guisan et al., 1998; Guisan & Harrell, 2000; Leathwick, 2001; Pearce & Ferrier, 2001; Cawsey et al., 2002). La procedencia de los datos es variada. Lo ms comn es que provengan de colecciones de historia natural derivadas de muestreos no dirigidos (Soberon et al., 1996; Graham et al., 2004a), aunque tambin los hay derivados de muestreos aleatorios o estratificados (Guisan et al., 1998; Cawsey et al., 2002), as como de observaciones oportunistas como la monitorizacin de animales (Brotons et al., 2007). La mayor parte de la informacin est disponible en las colecciones de historia natural (CHN). Por el contrario en muy pocas ocasiones existen datos tomados en el campo con un diseo experimental encaminado a la elaboracin y validacin de MDE (Feria et al., En revisin). Los datos procedentes de colecciones de historia natural presentan una serie de inconvenientes (Margules & Pressey, 2000; Soberon & Peterson, 2004; Rowe, 2005; Edwards et al., 2006; Pape & Gaubert, 2007b) (vase Tercera Parte), aunque debe sealarse que algunos de estos problemas no son especficos de este tipo de datos: 1) slo registran datos sobre la presencia de las especies y no sobre su ausencia; 2) estn colectados con diferentes fines y por diferentes recolectores y no presentan una estrategia de muestreo; 3) como consecuencia del punto anterior, pueden reflejar una distribucin medioambiental sesgada de la especie; y 4) pueden presentar errores en la georreferenciacin e identificacin de las colecciones. Algunos autores sugieren remuestrear los datos para superar estos inconvenientes (Arajo & Guisan, 2006), pero en la mayora de las ocasiones dispondremos de un nmero muy pequeo de datos y remuestrear los datos resulta inviable. Un punto importante, por el que los MDE realizados con datos procedentes de herbarios han recibido un gran nmero de crticas, es que estas colecciones no representan un muestreo aleatorio del rea de estudio, y estn altamente correlacionados con carreteras, ros, localidades, puntos interesantes desde el punto de vista botnico, etc. (Reddy & Dvalos, 2003; Soberon & Peterson, 2004; Hopkins, 2007; Pape & Gaubert, 2007b; Schulman et al., 2007). Podra suceder que estas carreteras supusiesen un muestreo aleatorio, ya que su trazado recorre las diferentes regiones climticas del rea de estudio y por lo tanto no afectara a la

32

INTRODUCCIN

fiabilidad de los modelos, o bien que sucediera todo lo contrario, es decir, que los datos almacenados en las colecciones de historia natural muestren un sesgo climtico. Dos trabajos, realizados en Israel (Kadmon et al., 2004) y Ecuador (Loiselle et al., 2008), analizaron en detalle este hecho. En ambos se lleg a la misma conclusin, que los resultados finales de los MDE generados a partir de colecciones de historia natural pueden ser absolutamente fiables a pesar de no haber sido obtenidos mediante muestreos aleatorios, y que el factor realmente limitante es el nmero mnimo de presencias con el que se generen los modelos (vase Primera Parte). Una correcta georreferenciacin (latitud/longitud) de los datos es muy

importante a la hora de realizar trabajos de modelado ecolgico, ya que estas localizaciones se emplearn para muestrear las variables independientes y por tanto definirn las caractersticas ambientales en las que vive el organismo cuya distribucin se pretende modelizar. Curiosamente, hay algunos mtodos (por ejemplo MAXENT), que parecen ser particularmente robustos a un error moderado en la georreferenciacin de las localidades (Graham et al., 2008). En nuestro trabajo los datos proceden de la base de datos TROPICOS (Missouri Botanical Garden, Saint Louis, EEUU). Es una base de datos en la que figuran las colecciones georreferenciadas de diferentes herbarios. Trabajar con la totalidad de datos almacenados en TROPICOS para Ecuador sera inviable por lo que seleccionamos varias familias como grupos indicadores (Flather et al., 1997; Howard et al., 1998) de la biodiversidad vegetal de este pas. Los criterios para seleccionar estas familias fueron los siguientes: 1) estar revisadas recientemente por su especialista, lo que garantiza las identificaciones y lo apropiado del tratamiento taxonmico utilizado; 2) las especies incluidas son nativas de Ecuador; 3) consideradas en su conjunto incluyen representantes de todas las zonas biogeogrficas del pas, as como de sus condiciones medioambientales (Fig. 1.2); 4) en su mayora estaban georreferenciadas; y 5) en su conjunto, incluyen una amplia diversidad de formas de vida (biotipos). Teniendo en cuenta estos parmetros, las seis familias elegidas fueron Araceae (slo el gnero Anthurium), Bignoniaceae, Bromeliaceae, Gesneriaceae, Lauraceae, y Papilonaceae. En total se seleccionaron 397 especies (Tabla 1.1) para las que haba un mnimo de 15 presencias (vase Primera Parte). Lo que supuso manejar la informacin relacionada con 17.064 colecciones.

33

Modelos predictivos de riqueza de diversidad vegetal

Figura 1.2. Distribucin en Ecuador de las colecciones de las diferentes especies y familias empleadas en este trabajo.

TAXON Anthurium Gesneriaceae Lauraceae Bromeliaceae Bignoniaceae Leguminosae Total

ESPECIES 53 11 89 93 28 123 397

COLECCIONES 2513 415 3030 4977 1122 5007 17064Tabla 1.2. Nmero de especies y colecciones para cada uno de los taxones analizados en este trabajo.

Variables independientes (indicadores medioambientales) Los factores medioambientales tienen un efecto sobre la distribucin de la especie, ya sea de una forma directa o indirecta (Guisan & Zimmermann, 2000). Estas relaciones entre organismos y el medio abitico son la causa de los patrones espaciales que pueden observarse a diferentes escalas. Por ejemplo, si nuestro objetivo es estudiar la distribucin de un organismo en una extensin amplia y con una escala de trabajo grosera, seguramente dicha distribucin estar controlada principalmente por factores limitantes, como puede ser algn parmetro climtico. Sin embargo, si nuestro objetivo es estudiar una especie que presenta una distribucin desigual en un pequeo rea de estudio y en una escala de trabajo detallada, lo ms probable es que esta distribucin sea resultado de una distribucin desigual de los recursos debido a una variacin micro-topogrfica (Guisan &

34

INTRODUCCIN

Zimmermann, 2000). Por lo tanto, a la hora de seleccionar las variables con las que vamos a trabajar es muy importante tener en cuenta tanto la escala espacial como la resolucin de nuestro anlisis. Cada vez tenemos a nuestra disposicin un mayor nmero de posibilidades a la hora de seleccionar las variables potencialmente tiles, de las que las siguientes son un ejemplo. No obstante, cada estudio debe buscar las que sean apropiadas a sus objetivos: Variables climticas desarrolladas a partir de interpolacin de datos de estaciones climatolgicas utilizando un modelo digital del terreno como covariable. Mapas digitales de suelos, sustratos, geologa, vegetacin, formaciones forestales, usos del suelo, etc. Modelos digitales del terreno, de los que adems puede derivarse otras variables topogrficas (p. ej., pendiente, aspecto, orientacin, rugosidad, radiacin solar, curvatura, etc.). Variables obtenidas mediante teledeteccin, como ndices de vegetacin (NDVI), temperatura en superficie, etc. Los datos derivados de satlites han sido muy poco empleados en el modelado ecolgico, aunque producen resultados ptimos (Muoz et al., 2004; Zimmermann et al., 2007). Variables de tipo demogrfico y de ocupacin del espacio, como ndices de poblacin, accesibilidad, vas de comunicacin, etc., que pueden ser muy tiles para evaluar el grado de perturbacin de un ecosistema. Etctera. El rea de estudio en este trabajo es relativamente grande, ya que abarca casi 300.000 km2. Por lo tanto, tal y como vimos anteriormente, los patrones espaciales a esta escala estarn regulados principalmente por factores directos, especialmente el clima. En este estudio hemos utilizado las variables bioclimticas de la base de datos WorldClim 1.3 (http://www.worldclim.org/) (Hijmans et al., 2005) por los siguientes motivos: 1) esta base de datos presenta cobertura mundial y permite comparaciones y extrapolaciones con otros trabajos realizados en otros lugares del planeta; 2) es un recurso libre y gratuito; 3) sus 19 variables tienen un sentido biolgico como factores limitantes a la hora de explicar los patrones de diversidad de los organismos (Tabla 1.2); 4) su resolucin de 30 (equivalente a ~1 km2 en el ecuador) es coherente con la escala de nuestro estudio; y 5) son variables que tiene una influencia directa sobre la distribucin de plantas (Elith, 2002; Austin, 2007), ya

35

Modelos predictivos de riqueza de diversidad vegetal

que no solo reflejan precipitacin y temperatura, si no que tambin reflejan sus variaciones a lo largo del ao (Walter, 1997). VARIABLEB1 B2 B3 B4 B5 B6 B7 B8 B9 B10 B11 B12 B13 B14 B15 B16 B17 B18 B19 SIGNIFICADO Temperatura media anual Rango medio diurno (media mensual (t mx.- t min.)) Isotermalidad (B2/B7) (* 100) Temperatura Estacional (desviacin estndar *100) Temperatura mxima del mes ms clido Temperatura mnima del mes ms fro Rango de Temperatura Anual (B5 - B6) Temperatura media del mes ms hmedo Temperatura media del mes ms seco Temperatura media del trimestre ms clido Temperatura media del trimestre ms fro Precipitacin anual Precipitacin del mes ms hmedo Precipitacin del mes ms seco Precipitacin estacional (Coeficiente de variacin) Precipitacin del trimestre ms hmedo Precipitacin del trimestre ms seco Precipitacin del trimestre ms clido Precipitacin del trimestre ms fro

Tabla 1.2. Variables bioclimticas de WorldClim.

Estas variables bioclimticas estn calculadas mediante la interpolacin de los datos de temperatura y precipitacin medios mensuales de estaciones climatolgicas repartidas a nivel global y un modelo digital terrestre del planeta. Los datos utilizados corresponden al periodo 1960-1990, amplindose en algunas circunstancias dicho periodo de 1950 a 2000, como es el caso de la Amazona. Muchas de las variables bioclimticas empleadas en este trabajo estn fuertemente correlacionadas entre s. Esta correlacin no tiene por que ser necesariamente un problema, aunque si lo fuese podra emplearse una tcnica estadstica de reduccin de variables (Elith, 2002) (vase Tercera Parte).

1.5.2. Modelos de distribucin de especiesComo vimos anteriormente, un modelo es una idealizacin de la realidad a la que se llega mediante un proceso. En el caso de los modelos de distribucin de especies se siguen los siguientes pasos: 1) partimos de los datos conocidos sobre la

36

INTRODUCCIN

distribucin del organismo; 2) asociamos matemtica o estadsticamente estos datos con diferentes variables independientes que describen las condiciones ambientales (variables explicativas, p. ej.: tipo de suelo, variables climticas, topografa, etc.); 3) extrapolamos esta relacin al resto del rea de estudio y obtenemos un mapa de idoneidad o probabilidad de presencia de la especie, es decir, un ndice de lo adecuado que es un determinado lugar para el desarrollo de la especie en relacin con las condiciones ambientales. Por lo tanto, los modelos son generalizaciones objetivas y repetibles que nos indican lo adecuado que es un determinado rea para el desarrollo de una especie. A lo largo de su evolucin en la bibliografa cientfica estos modelos han recibido denominaciones muy diferentes: modelos de nicho (niche models), modelos de idoneidad (suitability models), modelos predictivos del hbitat (predictive habitat distribution models). ltimamente se empiezan a unificar criterios y la mayora de las publicaciones hacen referencia al trmino modelos de distribucin de especies MDE (species distribution models SDM) y su resultado final recibe el nombre de mapas de idoneidad de hbitat o de hbitat potencial (habitat suitability maps). Este debate en torno a la denominacin de los modelos est fundamentado en la interpretacin ecolgica que reciben por los diferentes autores: Algunos autores consideran que estamos trabajando con modelos de idoneidad, que representan la distribucin potencial de una especie. Entendemos por distribucin potencial aquel espacio donde podra estar presente la especie objeto de estudio en funcin de sus caractersticas ambientales. Se trata de modelos cartogrficos que nos indican lo adecuado que es cada punto del rea estudiada en funcin de unas determinadas variables de entrada (Lobo, 2000; Felicsimo et al., 2005). Otros autores prefieren emplear el trmino modelo del nicho ecolgico (p. ej., Vetaas, 2002; Arajo & Guisan, 2006). El nicho fundamental (Grinnell, 1917) de una especie es la distribucin potencial global de la especie. Es decir la combinacin de las condiciones ecolgicas que la especie puede tolerar, expresada como un espacio multidimensional ambiental. Cuanto este espacio est limitado por las interacciones con otras especies (por ejemplo competencia), hablamos de nicho realizado (Hutchinson, 1957). La distribucin actual observada de la especie depende de otros factores, como la influencia humana, los factores histricos, las limitaciones en la capacidad de dispersin, etc. Hay que tener en cuenta que la modelizacin es en la mayora de los casos del nicho realizado, pero utilizando variables que slo son oportunas para definir el nicho fundamental.

37

Modelos predictivos de riqueza de diversidad vegetal

-

Por ltimo, otros autores optan por describirlos como modelos del hbitat potencial, afirmando que el concepto de hbitat puede ser aplicado a la descripcin de la asociacin entre los organismos y los factores ambientales. Entienden por tanto que la mayora de las aproximaciones empleadas en el modelado ecolgico son ejercicios descriptivos de modelado del hbitat de una determinada especie (Kearney, 2006).

La discusin anterior no carece de sentido a la hora de interpretar el resultado final y de su aplicacin al mundo real. Los MDE son una herramienta con innumerables aplicaciones que pueden variar en funcin de la interpretacin que hagamos de su resultado. Entre sus campos de aplicacin podemos destacar el estudio de la riqueza de especies (Cumming, 2000b; Lehmann et al., 2002; Hortal et al., 2004), de la distribucin potencial de comunidades (Felicsimo et al., 2002; Felicsimo et al., 2003), de la distribucin de especies en el pasado (Benito Garzn et al., 2007), de los patrones de diversidad (Ortega-Huerta & Peterson, 2004; Ferrier et al., 2007), del riesgo asociado a especies invasoras (Kolar & Lodge, 2002; Peterson, 2003; Broennimann et al., 2007; Fitzpatrick et al., 2007; Richardson & Thuiller, 2007), de la proteccin y conservacin de especies amenazadas (Godown & Peterson, 2000; Benito de Pando & Peas de Giles, 2007), de los posibles efectos del cambio climtico (Iverson et al., 1999; Peterson et al., 2002; Iverson, 2004; Arajo et al., 2005a; Arajo et al., 2006; Benito Garzn, 2006; Benito Garzn et al., 2007; Botkin et al., 2007; Pearman et al., 2008), el diseo de reservas (Arajo & Williams, 2000; Margules & Pressey, 2000; Ortega-Huerta & Peterson, 2004; Hannah et al., 2007), los estudios de conservacin (Flather et al., 1997; Arajo et al., 2005b; Ceballos et al., 2005; Rissler et al., 2006), la filogeografa (Peterson et al., 1999; Graham et al., 2004b; Weaver et al., 2006), la biogeografa (Lobo et al., 2001; Luoto et al., 2006; Richards et al., 2007), la delimitacin de regiones biogeogrficas (Peters & Thackway, 1998), la localizacin de lugares donde pueden existir nuevas especies (Raxworthy et al., 2003), la delimitacin de lugares para futuros trabajo de campo (Guisan et al., 2006), la reintroduccin de especies amenazadas (Wiser et al., 1998), la conservacin de especies raras (Bourg et al., 2005; Sattler et al., 2007), la delimitacin de puntos calientes de biodiversidad (Schwartz, 1999; Richardson et al., 2006), el contraste de hiptesis relacionadas con la teora de la evolucin (Peterson et al., 1999), los efectos de las actividades humanas en la distribucin de especies (Jarnevich et al., 2006; Seoane et al., 2006), la taxonoma (Gaubert et al., 2006), y un todava largo etctera. La naturaleza es compleja y heterognea, y predecir con precisin cada uno de sus aspectos es algo muy complicado. Los MDE son una aproximacin a la realidad

38

INTRODUCCIN

que llevan asociados ciertas limitaciones que conviene conocer para una correcta interpretacin de los resultados. En este sentido, Lobo (2000) realiza una reflexin muy interesante: una de las observaciones que alimentan el estudio biogeogrfico es que siempre hay un lugar que parece idneo ambientalmente para una especie, pero que no est habitado por ella (por ejemplo, cada regin mediterrnea tiene riquezas y especies distintas). Cuanto mayor es la escala espacial de anlisis, ms frecuente es este fenmeno debido, lgicamente, a la actuacin de factores de carcter nico e irrepetible que condicionan la distribucin. Se trata de la historia evolutiva propia de cada grupo, de la historia y los avatares propios de cada regin y de las caractersticas geogrficas de la misma. Evidentemente, la importancia de los factores ambientales a la hora de restringir la distribucin de las especies es limitada, de modo que elaborar funciones predictivas que nicamente tengan en consideracin variables ambientales producir, generalmente, modelos incompletos. Ello ser especialmente cierto cuando la escala espacial de anlisis sea amplia, como exige el estudio geogrfico de la variacin del nmero de especies. Historia y geografa tambin juegan y es necesario incluirlas. En la bibliografa podemos encontrar una serie de limitaciones asociadas a los MDE (Guisan & Zimmermann, 2000; Hampe, 2004; Pearson & Dawson, 2004; Guisan & Thuiller, 2005; Soberon & Peterson, 2005; Pearson et al., 2006b). stas son las ms frecuentes: Hiptesis de pseudo-equilibrio (Arajo & Pearson, 2005): los modelos asumen que la poblacin est en equilibrio o, al menos, en pseudo-equilibrio con el medio. Es decir, pequeos cambios en el medio no afectaran a la distribucin de la especie. Como vimos anteriormente, en la realidad la distribucin de una especie tiene una relacin de no-equilibrio con el medio y si consideramos una especie cuya poblacin est aumentando, por ejemplo recolonizando un medio, los datos de ausencia tomados en el campo pueden situarse dentro del hbitat potencial de esa especie y, por tanto, constituiran falsas ausencias que sesgaran el resultado. Por el contrario, para una especie cuyo rea de distribucin est retrayndose, algunas de las presencias pueden constituir falsas presencias (Elith, 2002). Esta limitacin afecta menos a aquellas especies que son relativamente persistentes o que reaccionan lentamente a las condiciones ambientales (elevada resiliencia).

39

Modelos predictivos de riqueza de diversidad vegetal

-

Relaciones biticas (Davis et al., 1998; Fitzpatrick et al., 2007): la distribucin de las especies responde a un proceso complejo, donde las relaciones biticas tienen un gran significado, por ejemplo la competencia con ciertas especies puede producir que una especie no ocupe su rea potencial en su totalidad. Este es un factor que no se toma en consideracin en la mayora de los trabajos realizados con MDE, como tampoco lo son otras interacciones como la facilitacin, polinizacin, herbivora, depredacin, parasitismo o simbiosis. En muchos casos la informacin disponible es tan escasa que sera imposible desarrollar otro tipo de modelos. Adems, algunos autores consideran que estas interacciones slo tienen un efecto importante a una escala local y a una resolucin muy fina (Whittaker et al., 2001; Pearson & Dawson, 2004; Guisan & Thuiller, 2005). Sin embargo, otros trabajos muestran resultados totalmente contrarios (Arajo & Luoto, 2007).

-

Factores

histricos:

la

distribucin

actual

de

un

organismo

est

influenciada por diferentes factores histricos. Por ejemplo, puede no estar presente en la actualidad en un lugar propicio para su desarrollo debido a eventos geolgicos, antropognicos o climticos que han sucedido en el pasado, como glaciaciones o aparicin de barreras biogeogrficas (Guisan & Zimmermann, 2000). Es un factor importante a lo hora de generar un MDE y que conviene considerar a posteriori si se tiene la suficiente informacin. Limitaciones en la capacidad de dispersin de la especie (Svenning & Skov, 2004; Pearson & Dawson, 2005; Lester et al., 2007): en algunas situaciones una especie puede faltar en zonas dentro de su rea potencial de distribucin debido a limitaciones en su capacidad dispersiva. Otro factor importante a tener en cuenta, es como influyen la ecologa de la especie en el resultado final del modelo: si se trata de una especie de distribucin restringida o amplia, la abundancia de la especie, etc. Por ejemplo, en plantas es de esperar que especies que se encuentran en los pasos finales de la sucesin ecolgica sean ms fciles de modelizar que especies pioneras, ya que la distribucin geogrfica de las primeras ser ms estable (Guisan et al., 2007b). Tambin se ha demostrado que los modelos realizados con especies de distribucin restringida son ms fiables que los realizados con especies de amplia distribucin (Feria et al., En revisin). Algunas de estas limitaciones pueden considerarse a la hora de realizar un MDE mediante diferentes estrategias como: 1) aadir la presencia de especies competidoras o facilitadoras como una variable ms en el anlisis; 2) limitar las reas predichas por el modelo como idneas teniendo en cuenta el criterio de

40

INTRODUCCIN

especialistas (Peters & Thackway, 1998; Loisselle et al., 2003); 3) si existe una barrera dispersiva que hace imposible el establecimiento de una especie en un lugar que el modelo predice como potencial podemos eliminar este rea a posteriori (Skov & Borchsenius, 1997); 4) tener en cuenta los sustratos sobre los que no puede desarrollarse una especie (Felicsimo et al., 2005); 5) conocer los factores histricos que han determinado la distribucin actual de la especie y aplicarlos al resultado final obtenido en el modelo (Pape & Gaubert, 2007b); 6) emplear mtodos hbridos que combinen MDE con modelos obtenidos con otras aproximaciones (Graham & Hijmans, 2006; Schurr et al., 2007; Allouche et al., 2008; Nogus-Bravo et al., 2008b); 7) restringir los resultados por regiones biogeogrficas (Peterson et al., 2002); 8) estudiar e introducir en los resultados interacciones de facilitacin relaciones biticas entre distintas especies (Heikkinen et al., 2007); etctera. En este sentido, son muy interesantes las consideraciones de Pearson y Dawson (2004) que apuntan que muchas de estas limitaciones son el objetivo de las investigaciones actuales, cuya meta es mejorar los mtodos existentes o desarrollar otros nuevos. En trabajos relacionados con la conservacin sera deseable que en un futuro estos modelos sean ms realistas desde el punto de vista biolgico. Sin embargo, la capacidad de construir modelos ms realistas est limitada por nuestra comprensin de los sistemas ecolgicos complejos y por los datos limitados disponibles. A pesar de estas limitaciones de los MDE, un elevado nmero de estudios han demostrado su xito, por ejemplo en la prediccin de especies que se desconocan (Raxworthy et al., 2003) y para modelizar la distribucin de especies en el pasado (Martnez-Meyer & Peterson, 2006). Por lo tanto, hay que considerar estos modelos como un primer acercamiento til, por ejemplo para deducir los impactos del cambio climtico en la distribucin de las especies, aunque se deban aplicar cuidadosamente considerando sus limitaciones. En una de las obras clsicas sobre la relacin entre especies vegetales y el clima (Walter, 1985), el autor analiza en detalle algunos patrones que son muy interesantes para poder comprender hasta qu punto son importantes estas limitaciones a la hora de realizar, validar e interpretar los modelos de distribucin de especies vegetales y que nos parece apropiado poner de manifiesto en este contexto. Walter asegura que la actual cobertura vegetal de la Tierra es el resultado de una larga evolucin del reino vegetal bajo la influencia de los factores ambientales, tanto en el pasado como en la actualidad. As, la vegetacin est condicionada en gran parte por el medio ambiente, sobre todo clima y suelo (condiciones trmicas, condiciones hdricas, intensidad lumnica y duracin del da, factores qumicos y y competencia (Leathwick, 2002, gnero Nothofagus); 9) tener en cuenta las

41

Modelos predictivos de riqueza de diversidad vegetal

factores mecnicos). Estos factores ecolgicos slo son directamente determinantes en los lmites absolutos de la distribucin. Si prescindimos de estas excepciones, vemos que las especies vegetales an pueden crecer muy lejos de su rea si se las protege de la competencia de otras especies. Los lmites naturales de una especie se producen donde unas condiciones ambientales disminuyen hasta tal punto que su capacidad de competencia se ve desplazada por otras especies. Walter asegura que la fuerza de competencia es un fenmeno muy complicado y difcil de medir. Esta competencia da lugar a la aparicin de combinaciones de especies vegetales, denominadas comunidades vegetales. Algunas de estas comunidades son estables y se encuentran en equilibrio ecolgico relativo entre ellas y con su medio ambiente. Son decisivas para mantener este equilibrio: la competencia entre especies, la dependencia de una especie de la existencia de otras, y la presencia de especies complementarias. Otro factor importante a la hora de desarrollar MDE es su fiabilidad final, propiedad que depende de diferentes factores y sobre todo de la calidad de los datos de entrada (variable respuesta e indicadores medioambientales). Los problemas ms habituales que pueden afectar a la fiabilidad de los MDE son los siguientes: Diseo de muestreo: un muestreo inadecuado puede generar una informacin insuficiente o irregular (Lobo, 2000; Hirzel & Guisan, 2002). Precisin y exactitud de los datos (Lobo, 2008): inexistencia o poca fiabilidad en los datos de ausencia (pseudo-ausencias) (vase Segunda Parte), errores o poca precisin en la georreferenciacin de los datos de presencia, errores en la identificacin de los datos de presencia, tamao mnimo de muestra insuficiente (vase Primera Parte), poder predictivo de las variables independientes, etc. Resolucin espacial (Guisan et al., 2007a): debemos emplear la misma resolucin en todos los datos empleados en el anlisis, que debe ser coherente con los objetivos finales del proyecto y la escala a la que estamos trabajando (mundial, continental, regional, comarcal, etc.). Autocorrelacin espacial: si el valor de una determinada variable en una localidad depende de los valores en las localidades adyacentes, se dice que esta variable presenta autocorrelacin espacial, violndose la independencia entre las observaciones que requieren la gran mayora de los estadsticos (Lobo, 2000).

42

INTRODUCCIN

-

Mtodos de comparacin y seleccin de los mtodos de modelado: existe una gran variedad de mtodos disponibles para realizar MDE y un paso clave es la seleccin del mtodo adecuado (vase partes Segunda y Tercera).

Los MDE se pueden generar a partir de mtodos que pueden clasificarse de varias maneras. Quizs en el contexto de este trabajo la clasificacin ms apropiada sea la que se basa en el tipo de datos de partida que utilicen, y que nos permitira reconocer cinco tipos fundamentales de tcnicas. A continuacin aparece un listado que incluye las principales opciones existentes en la literatura cientfica. Cuando comenzamos a desarrollar este trabajo no existan apenas trabajos de comparacin de mtodos en modelado ecolgico y uno de los objetivos ms importantes dentro de esta comunidad de cientficos era comprobar qu mtodos eran los ms precisos. La seleccin del mtodo empleado en un trabajo de modelado ecolgico es un proceso fundamental para la fiabilidad final de los resultados. Con este objetivo, nos planteamos realizar una comparacin de mtodos y ver cul(es) se ajustaba(n) mejor a nuestros datos de partida y a los objetivos de nuestro proyecto. Una evaluacin listado: A) Tcnicas discriminantes (aquellas que necesitan datos de presencia y ausencia): Tcnicas de clasificacin: classification and regression trees -CART(Breiman et al., 1984a), random forest (Breiman, 2001), boosted regression trees -BRT(Friedman, 2001), mixture discriminant analysis -MDA- (Hastie & Tibshirani, 1996). Tcnicas de ordenacin: anlisis de correspondencia cannica (CCA). Redes neuronales: neural network-assisted (ANN), Plus package NNETW (Venables & Ripley, 2002). Multivariate adaptive regression splines (MARS): con interacciones y sin interacciones (Friedman, 1991). Modelos lineales generalizados (Generalized Linear Models, GLM) (McCullagh & Nelder, 1989): regresin logstica mltiple (RLM), support vector machines -SVM- (Vapnik, 1995), generalized regression analysis and spatial prediction -GRASP- (Lehmann et al., 2003). Modelos aditivos generalizados (Generalized Additive Models, GAM) (Hastie & Tibshirani, 1986), BRUTO (Hastie et al., 1994). de todos los mtodos sera inviable y seleccionamos los ms frecuentemente empleados en la bibliografa, aparecen destacados en negrita en el

43

Modelos predictivos de riqueza de diversidad vegetal

-

Mxima entropa: MAXENT (Phillips et al., 2006; Phillips & Dudk, 2008). Este mtodo genera sus propias pseudo-ausencias.

B) Tcnicas descriptivas (slo necesitan datos de presencia): Deductivas: investigacin, opinin del experto. Envueltas geogrficas: convex hull (Worton, 1995), Kernel density estimators (Silverman, 1986; Seaman & Powell, 1996). Envueltas ambientales: BIOCLIM (Busby, 1986;1991), ANUCLIM (Houlder et al., 1999), BIOMAP (Nix and Switzer 1991), HABITAT (Walker & Cocks, 1991), FLORAMAP (Jones & Gladkov, 1999), PCA. Mtodos de distancia: DOMAIN o distancia mtrica de Gower (DMG), LIVES, distancia de Mahalanobis -MADIFA- (Calenge et al., 2008). Ecological niche factor analysis (ENFA): Biomapper (Hirzel et al., 2002). C) Tcnicas mixtas (el algoritmo emplea varias reglas algunas de ellas descriptivas y otras discriminantes): Algoritmos genticos: Desktop-GARP (Stockwell & Peters, 1999), OM-GARP (Elith et al., 2006). Este mtodo autogenera sus propias pseudo-ausencias para el conjunto de reglas que necesitan datos de ausencia. D) Tcnicas multirrespuesta (utilizan como ausencias aquellos lugares en donde no se ha encontrado la especie objeto de estudio pero estn presentes otras especies relacionadas con la especie objetivo): MARS-Multirrespuesta (Elith & Leathwick, 2007). Redes neuronales multirrespuesta. Vector generalized linear (or additive) models.

E) Tcnicas de abundancia (utilizan datos de abundancia): Modelos de regresin para variables ordinales (Guisan & Harrell, 2000): proportional odds (Guisan et al., 1998), continuation ratio, stereotype models, poisson generalized linear modelling, zero inflated negative binomial regression (Welsh et al., 1996b; Boyce et al., 2001; Pearce & Ferrier, 2001; Barry & Welsh, 2002; Dirnbck & Dullinger, 2004 ).

44

INTRODUCCIN

-

Modelos aditivos generalizados (Generalized Additive Models, GAM) (Leathwick, 2001; Cawsey et al., 2002): Poisson GAM (Pearce & Ferrier, 2001).

-

rboles de regresin (Iverson & Prasad, 1998). Redes neuronales.

A continuacin analizamos cada uno de los mtodos de modelado ecolgico empleados y comparados en este trabajo de investigacin: Algoritmos genticos GARP, acrnimo de genetic algorithm for rule set production (Stockwell & Peters, 1999), se basa en un smil de la evolucin por seleccin natural. GARP puede ejecutarse con datos de presencia/ausencia o de slo presencia, pero en este caso genera sus propias pseudo-ausencias (back-ground). El primer paso en el proceso es dividir el conjunto de datos en dos subconjuntos, uno de ellos para ejecutar el modelo y otro para evaluarlo. Genera un modelo mediante un conjunto de reglas (atmicas, regresin logstica, envueltas ambientales, reglas de rango, etc.) y lo evala mediante los errores de omisin y comisin. A continuacin realiza otra iteracin, para lo que remuestrea de nuevo los datos, hace dos nuevos subconjuntos de datos, genera nuevas reglas para volver a producir otro modelo y evaluarlo. Si este modelo es mejor que el anterior lo almacena, de esta forma genera una gran cantidad de modelos hasta que no mejoran o hasta que se llega a un nmero de iteraciones establecido por el usuario. El resultado final es un mapa binario de presencia (valor 1) y ausencia (valor 0) de la especie. Se trata de un mtodo muy aleatorio, debido al remuestreo de las presencias y la generacin pseudo-ausencias; para solventar esta desventaja el programa ejecuta mltiples mapas finales y selecciona los modelos que presentan mejor consistencia (best subset). Estos modelos pueden ser combinados para generar un nico mapa final. La ventaja ms destacada de GARP es su implementacin en un nico software. Sin embargo, es como una caja negra ya que sus resultados no se pueden explicar fcilmente, no es interpretable desde el punto de vista ecolgico, los resultados varan enormemente con los mismos datos de partida y no se conoce la influencia de las variables independientes en el modelo final.

45

Modelos predictivos de riqueza de diversidad vegetal

Figura 1.3. Ventana de GARP Desktop 1.1.6 donde se pueden contemplar los parmetros con los que ejecutamos este mtodo.

Para realizar los modelos empleamos un software desarrollado por Stockwell y Peters (1999), GARP Desktop 1.1.6. Este algoritmo genera modelos diferentes en cada iteracin, ya que se trata de un proceso estocstico donde las mutaciones y recombinaciones del algoritmo afectan a la prediccin final. Esta variacin entre predicciones sugiere el empleo de varios mapas con los que se genera un modelo de consenso final (Elith, 2002). En este estudio generamos 100 modelos, de los que se eliminaron los que cometan ms de un 10% de error de omisin; de los restantes, se seleccionaron los 10 modelos que estaban alrededor de la mediana del error de comisin. Con estos 10 modelos se gener el modelo de consenso. La figura 1.3 muestra los parmetros con los que fue ejecutado este mtodo. Distancia mtrica de Gower (DMG, Domain) Este algoritmo (Walker & Cocks, 1991; Carpenter et al., 1993) utiliza la distancia mtrica de Gower, una medida de distancia que estandariza las variables segn su rango en todos los puntos de presencia para igualar su contribucin al modelo. La distancia entre una presencia A y una celda B para una variable k se calcula como la diferencia absoluta entre A y B dividida por el rango de k para todos los puntos de presencia. La distancia de Gower (G) es la media de las distancias para todas las

46

INTRODUCCIN

variables climticas, y el estadstico de similitud se calcula como 100 (1-G). El valor mximo es 100, que se da en todas las celdas con presencia del organismo.

GAB = 1 (1/p * (|A k B K|/ rango K))donde p = nmero de presencias, Ak = valor de la variable k en el pxel A, y Bk = valor de la variable k en el pxel B. El resultado es un valor de similitud entre la celda problema y el punto de presencia ms similar conocido. Los modelos realizados con este algoritmo pueden interpretarse como la diferencia entre un sitio de inters y los lugares donde conocemos que la especie est presente. Se pueden generar mapas de presencia/ausencia seleccionando un punto de corte por encima del cual se considera que la especie est presente y por debajo del cual la especie no lo est. En la bibliografa el valor empleado con ms frecuencia como punto de corte para este algoritmo es 95 (Carpenter et al., 1993).

Figura 1.4. Ventanas del software DIVA-GIS donde se contemplan las opciones necesarias para poder ejecutar un modelo de distancia mtrica de Gower en este programa.

Es un mtodo fcil de ejecutar y de intrepretar. Sin embargo, presenta varias desventajas: 1) es un mtodo poco flexible, ya que no permite interacciones entre variables; 2) da la misma importancia a todas las variables; 3) no tienen ningn procedimiento para seleccionar variables; 4) no se puede conocer la influencia de cada variable en el modelo final; 5) tampoco est muy claro cmo puede afectar el

47

Modelos predictivos de riqueza de diversidad vegetal

empleo de numerosas variables que estn altamente correlacionadas en el resultado final de los modelos; 6) es un mtodo que tiende a sobreajustar; y 7) es muy susceptible a la presencia de valores atpicos (outliers). Para generar los MDE de este mtodo, en un primer momento empleamos un software especfico (DOMAIN32), pero comprobamos que tena un error de programacin por el que los valores del mapa resultante estaban desplazados una celda; empleamos por tanto DIVA-GIS (Hijmans et al., 2004). En la figura 1.4 se pueden observar las opciones elegidas para generar los modelos. Envuelta medioambiental Este es el ttulo que nos parece ms acertado para describir el mtodo BIOCLIM (Busby, 1986;1991) que hemos seleccionado como ejemplo de mtodo de envuelta o entorno medioambiental. Estos mtodos modelizan la distribucin de una especie definiendo un espacio multidimensional en el que cada dimensin viene expresada por el rango de una de las variables independientes tras eliminar las observaciones comprendidas en los 5% superior e inferior de dicho rango. El modelo resultante es el que presenta condiciones incluidas dentro de los lmites de este espacio multidimensional. Es un mtodo fcil de ejecutar e interpretar. Las desventajas que presenta son las mismas que listamos en el mtodo anterior. Los modelos tambin fueron realizados con el software DIVA-GIS (Hijmans et al., 2004). Mxima entropa Maxent (maximum entropy) (Phillips et al., 2006; Phillips & Dudk, 2008) es un mtodo de inteligencia artificial que se basa en el principio estadstico de mxima entropa. Los modelos tienen como unicas limitaciones las realmente conocidas, en nuestro caso hablamos de un universo delimitado por los valores de las variables entre las que se desarrolla la especie problema. As por ejemplo, el valor esperado (valor medio predicho por el modelo) de cada variable independiente debe coincidir con su media emprica (valor medio observado al muestrear las variables independientes con los datos de presencia de partida). MAXENT calcula la probabilidad de distribucin de mxima entropa (es decir, la distribucin ms prxima a la uniforme) sujeta a estas condiciones. El resultado final es una expresin del tipo: P(x) = exp (C1 * F1(x) + C2 * F2(x) + C3 * F3(x) ...) / Z

48

INTRODUCCIN

donde C1, C2... son constantes; F1, F2... son las variables, y Z es una constante que asegura que la suma de todos los valores de P para todas las celdas sea 1. Durante el proceso, Maxent genera distintas distribuciones de probabilidad, comenzando por una distribucin uniforme, sucesivamente mejora el ajuste a los datos. Esta ganancia se define como la probabilidad media de los datos de presencia, menos una constante que implica que la distribucin uniforme tiene una ganancia igual a cero. Al final del proceso, esta ganancia indica el ajuste del modelo a las localidades de presencia. Si esta ganancia tiene un valor de 2 significa que la probabilidad media de las muestras de la presencia es exp(2). Es decir, 7,4 veces mayor que un pxel escogido al azar. Obsrvese que Maxent no est calculando directamente la "probabilidad de ocurrencia". La probabilidad que asigna a cada celda es muy pequea, pues todos los valores deben sumar 1.

Figura 1.5. Ventana del software MAXENT 2.1 donde se pueden observar los parmetros seleccionados para ejecutar este mtodo.

Maxent tiene tres formatos de salida: raw, cumulative y logistic. El segundo es el empleado en este trabajo. Donde el valor de una celda es la suma de las probabilidades de todas las celdas con una probabilidad ms elevada que la celda problema. De esta forma las celdas que el modelo predice que presentan las mejores condiciones para la especie, tendrn valor acumulativo de 100, mientras que los

49

Modelos predictivos de riqueza de diversidad vegetal

valores acumulativos prximos a 0 indican condiciones inadecuadas para el desarrollo de la especie. Este algoritmo puede usar variables cualitativas, dando a cada clase de la variable un peso relativo al nmero total de puntos de presencia que contiene dicha clase. El programa proporciona curvas de respuesta de la especie ante las diferentes variables independientes y valora la importancia de cada una de ellas en la distribucin de la especie. Entre sus ventajas se encuentra una formulacin relativamente transparente, que permite interacciones entre variables, se puede investigar el efecto de cada una de las variables, es fcil de ejecutar y funciona relativamente bien con tamaos muestrales pequeos. Sin embargo, no existe un mtodo de seleccin de variables y es un mtodo poco estudiado. Para ejecutar este mtodo empleamos un software especfico: MAXENT 2.1, programado en JAVA, que permite desarrollar modelos de distribucin de especie de una forma rpida y sencilla. En la figura 1.5 se pueden observar los distintos parmetros seleccionados para ejecutar este mtodo. Regresin logstica mltiple (RLM) La Regresin logstica mltiple es una regresin lineal con los valores finales comprendidos entre 0 y 1, por lo tanto resulta adecuado para generar un modelo de probabilidad. Al tratarse de una regresin, asume una relacin lineal entre la variable dependiente y las independientes. La variable dependiente adopta la forma de logit: ln (P/1-P), donde P es la probabilidad de presencia; despejando P se obtiene la ecuacin:

P (i ) =

1 1+ eb ( 0 ) + b (1) x (1) +...+ b ( n ) x ( n )

donde P(i) es la probabilidad de presencia de la especie; x(1) x(n) representan los valores de las variables ambientales y b(1) b(n) son los coeficientes correspondientes. Los modelos de distribucin de especies realizados con este mtodo no son ms que una ecuacin que explica la relacin entre la variable dependiente y las independientes, y su posterior extrapolacin a toda el rea de estudio mediante su implementacin en un SIG. Las variables independientes que se incluyen en el anlisis pueden estar correlacionadas entre s disminuyendo la fiabilidad final del modelo. Un proceso habitual en la construccin de modelos es seleccionar aqullas que son significativas,

50

INTRODUCCIN

una opcin frecuente es eliminar las variables no significativas mediante un proceso hacia delante (forward) o hacia atrs (backward). En el primer caso se realiza una regresin con cada una de las variables, aquella que explica el mayor porcentaje de la varianza total de la variable respuesta se selecciona, se vuelven a realizar regresiones parciales incluyendo la variable seleccionada. El proceso finaliza cuando no se encuentra ninguna variable que contribuya significativamente. El proceso hacia atrs consiste en incluir todas las variables a la vez, eliminando en cada paso las variables menos significativas. Otro mtodo es el anlisis de regresin por pasos (stepwise), que combina el proceso de seleccin forward con una eliminacin backward, comprobando la significacin de cada de una de las variables incluidas en el modelo. Este ltimo mtodo es el que hemos escogido para llevar a cabo la seleccin de variables en este trabajo. Algunas de las ventajas ms destacables de este mtodo son la fcil interpretacin de los modelos generados (tanto desde el punto de vista estadstico como ecolgico), que se pueden seleccionar las variables que se incluyen en el anlisis, se pueden considerar interacciones entre variables, se puede conocer el efecto de cada una de las variables en el modelo final, que se trata de un mtodo bien conocido y evaluado. Una de sus principales desventajas es el empleo de pseudo-ausencias, ya que se trata de un mtodo muy sensible a los errores en presencias y ausencias. Adems, se necesitan varios programas para desarrollarlo. Los modelos fueron realizados en SPSS 12.0 y, posteriormente, mediante una sintaxis en lenguaje AML (Arc Macro Language) ejecutada en ArcInfo Workstation 9.1, el modelo fue implementado en un SIG y convertido en mapa de probabilidad para toda la zona de estudio. rboles de clasificacin y regresin CART (classification and regression trees) es un mtodo desarrollado por Breiman et al. (1984b) que genera rboles binarios (los nodos padres se dividen en dos nodos hijos) mediante particiones iterativas, en un proceso que se puede repetir tratando a su vez a cada nodo hijo como padre. El algoritmo busca los valores ptimos de corte entre todas las variables independientes para obtener una serie ptima de divisiones binarias, de forma que se minimice la varianza dentro de cada nodo y se maximice entre nodos diferentes; es posible por tanto que haya variables que no se utilicen. Una vez obtenido el rbol que mejor clasifica los casos, sin lmite de complejidad, el algoritmo lo poda o simplifica para evitar el sobreajuste (overfitting) de los datos. El resultado es un rbol por el que se desciende a partir de preguntas de tipo si/no. En funcin del tipo de variable dependiente se diferencian

51

Modelos predictivos de riqueza de diversidad vegetal

dos tipos de rboles: de regresin (variable dependiente continua) y de clasificacin (variable discreta). Las ventajas ms destacadas de este mtodo son las siguientes: se trata de un mtodo fcil de interpretar, se pueden desarrollar fcilmente modelos no lineales, se conoce directamente el efecto de cada una de las variables en el modelo final. Las principales desventajas de este mtodo son que los modelos puede ser difciles de representar como una prediccin, se necesitan varios programas para desarrollarlo y su implementacin en un SIG puede llegar a ser muy complicada. Para generar estos modelos utilizamos CART 5.0 (www.salford-systems.com), aunque lo complicado de su implementacin en un SIG (Muoz & Felicsimo, 2004; Felicsimo et al., 2005), sumado a que no produjo los mejores resultados, recomend no generar los mapas finales. MARS (multivariate adaptive regression splines) MARS es un mtodo estadstico desarrollado por Friedman (1991). Se basa en la construccin de modelos flexibles ajustando los datos a regresiones lineales parciales "segmento por segmento" (piecewise). Es decir, los modelos no lineales se aproximan mediante la utilizacin de regresiones lineales parciales (en distintos intervalos del conjunto de datos), donde la pendiente de la ecuacin cambia de un intervalo a otro. Un nodo nos indica el final de una regresin parcial y el principio de otra. Entre dos nodos consecutivos el modelo se define mediante una regresin lineal. Los nodos se seleccionan mediante un procedimiento de bsqueda que emplea un algoritmo paso a paso, similar al proceso que empleamos en la RLM. El modelo generado est sobreajustado y posteriormente se eliminan los nodos con menor relevancia a travs de un criterio estadstico (mediante validacin cruzada generalizada) y slo se mantienen los nodos ms significativos. Las llamadas funciones bsicas (basis functions) representan la informacin contenida en una o ms variables. Actan como las nuevas variables independientes del modelo y explican el efecto de una o varias variables respuesta sobre la variable independiente en cada intervalo (espacio entre dos nodos). Veamos un ejemplo: suponemos que se ha generado el siguiente modelo: F(x) = 0 + 1 * FB1 + 2 * FB 2 siendo sus funciones bsicas las siguientes: FB 1 = max (0, V1 10)

52

INTRODUCCIN

FB 2 = max (0, V1 20) El efecto de la variable independiente V1 en la variable dependiente es 0 para los valores inferiores a 10; para los valores comprendidos entre 10 y 20 la variable V1 tiene un valor sobre la variable dependiente de 1 y para los valores mayores de 20 el efecto de la variable V1 sobre la variable dependiente se obtiene a partir de la suma de los coeficientes 1 y 2. Para generar estos modelos empleamos MARS 2.0 (www.salford-systems.com). Mediante rutinas de este software realizamos un total de 30 modelos diferentes para cada una de las especies, variando la complejidad de los modelos generados. Posteriormente seleccionamos el modelo que presentaba mejor consistencia (mayor valor del estadstico rea bajo la curva ROC, calculado en SPSS 12). Este modelo se implement despus en un SIG mediante una sintaxis AML (Arc Macro Language). Los parmetros que se variaron fueron: 1) nmero mximo de funciones bsicas permitidas en el modelo (15, 20, 25, 26, 27, 28, 29, 30, 45); 2) factor de velocidad (1, 2, 3, 4), que se refiere a la esfuerzo en la bsqueda de nodos ptimos en cada iteracin; con valores bajos de este parmetro el software analiza cada valor de la variable como posible nodo en cada iteracin, independientemente de que en iteraciones anteriores su