Modelos predictivos: datos, métodos, problemas y aplicaciones

76
Introducción a los modelos predictivos: métodos, problemas y aplicaciones Ángel M. Felicísimo [email protected] Ingeniería Cartográfica, Geodesia y Fotogrametría Universidad de Extremadura http://www.unex.es/eweb/kraken

description

Diapositivas de una conferencia impartida en el CSIC sobre los fundamentos de los modelos predictivos y sus beneficios y problemas.

Transcript of Modelos predictivos: datos, métodos, problemas y aplicaciones

Page 1: Modelos predictivos: datos, métodos, problemas y aplicaciones

Introducción a los modelos predictivos: métodos, problemas y aplicaciones

Ángel M. Felicísimo [email protected]

Ingeniería Cartográfica, Geodesia y Fotogrametría Universidad de Extremadura

http://www.unex.es/eweb/kraken

Page 2: Modelos predictivos: datos, métodos, problemas y aplicaciones

¿A qué se llama modelado predictivo?

modelo: representación simplificada de la realidad donde se muestran algunas de sus propiedades.

predictivo: predice (estima) propiedades en zonas donde éstas se desconocen.

An archaeological predictive model is a tool that indicates the probability of encountering an archaeological site anywhere within a landscape

http://www.mnmodel.dot.state.mn.us/

GEN

ERAL

ESPECÍFICA

Page 3: Modelos predictivos: datos, métodos, problemas y aplicaciones

ejemplos de modelos que nos interesan

Se han obtenido datos fragmentarios de presencia y de ausencia de cierto tipo de objetos: proponer las zonas idóneas para localizarlos en campañas futuras.

Una especie de interés farmacéutico ha sido localizada en unas zonas concretas en un área inexplorada: estimar su área de distribución real.

Una especie es un recurso trófico de una comunidad: plantear cual ha sido la evolución de su área de distribución en el pasado.

Los bosques en España tienen un área de distribución actual: estimar su área futura ante diversos escenarios y modelos de cambio climático.

ejemplo: cuevas en Asturias

ejemplo: proyecto OECC

Page 4: Modelos predictivos: datos, métodos, problemas y aplicaciones

Enlaces arqueológicos

Archaeological predictive modelling.

Mn/Model Statewide Archaeological Predictive Model

North Carolina GIS Archaeological Predictive Model Project

Predictive Modelling for Archaeological Heritage Management

http://modelling.pictographics.com/

http://www.mnmodel.dot.state.mn.us/index.html

http://www.informatics.org/ncdot/

http://archaeology.leiden.edu/research/computerapplications/bbopredmod.html

Page 5: Modelos predictivos: datos, métodos, problemas y aplicaciones

el problema desde nuestro punto de vista

objetivo general: a partir de datos de presencia/ausencia localizados espacialmente, generar una superficie continua de valores que nos refleje la probabilidad de presencia.

etapas necesarias para abordar el problema: conseguir la muestra de la variable dependiente. conseguir mapas de variables independientes

potencialmente explicativas. establecer si los valores de las variables independientes

sirven para describir la distribución de la dependiente. aplicar el modelo estadístico a la totalidad del área para

conseguir un mapa de probabilidades de presencia. valorar el error, la incertidumbre y la sensibilidad.

Modelo estadístico

Modelo de idoneidad

Page 6: Modelos predictivos: datos, métodos, problemas y aplicaciones

la construcción de un modelo

LA VARIABLE DEPENDIENTE: PRESENCIA/AUSENCIAS LAS VARIABLES INDEPENDIENTES: MODELOS DIGITALES DEL TERRENO, DISTANCIAS….

1

LOS DATOS

Page 7: Modelos predictivos: datos, métodos, problemas y aplicaciones

Los datos de presencia: algunas cuestiones

Toma de datos en campo: Puntuales: con receptores GPS, datum WGS84, latitud y longitud (caso

de las referencias a cuadrículas UTM).

Recuperación de datos en gabinete: • A partir de colecciones, fichas o museos: georreferenciación (ejemplo:

base de datos TROPICOS: http://www.tropicos.org/). • Revisión exhaustiva de las localizaciones, corrección y eliminación de

registros potencialmente erróneos.

Escala de trabajo: • Condiciona los requerimientos tanto en resolución espacial como en

exactitud (ejemplo: entradas de cuevas). • Existen variables cuyos valores dependen de la escala.

Page 8: Modelos predictivos: datos, métodos, problemas y aplicaciones

Datos de gabinete

Instituto de Investigação Científica e Tropical

Med

ios

de t

rans

port

e

Ficha original de lepidópteros

Page 9: Modelos predictivos: datos, métodos, problemas y aplicaciones

Bases de datos

Barnadesia arborea

Registros

Base de datos TROPICOS

Page 10: Modelos predictivos: datos, métodos, problemas y aplicaciones

Seguimiento

Datos de presencia con seguimiento mediante geolocalizadores

Mk13: 1.8 g, 3 años Mk5 : 3.6 g, 6 años

http://www.antarctica.ac.uk/engineering/html/project_pages/Bird_migration_tracking.htm

Page 11: Modelos predictivos: datos, métodos, problemas y aplicaciones

El caso de la pardela cenicienta Calonectris diomedea

Page 12: Modelos predictivos: datos, métodos, problemas y aplicaciones

Datos con variación temporal

Deslizamientos de ladera (argayos)

2 km

Valle de Deba (140 km2)

Page 13: Modelos predictivos: datos, métodos, problemas y aplicaciones

¿en qué zonas pueden usarse los modelos?

Los modelos pueden aplicarse a cualquier extensión de terreno.

La extensión de la zona suele condicionar la resolución espacial.

Ejemplos tipo: Locales (<25 m) Regionales (200 m) Globales (1 km)

A veces los datos son más groseros pero suficientes: Quikscat: 12.5 km

Page 14: Modelos predictivos: datos, métodos, problemas y aplicaciones

Datos extraídos de mapas

Generar modelos de idoneidad para tres especies arbóreas

alcornoque (Quercus suber) rebollo (Quercus pyrenaica) carrasca (Quercus rotundifolia)

Page 15: Modelos predictivos: datos, métodos, problemas y aplicaciones

la vegetación

Formaciones arbóreas Formaciones arbustivas Formaciones herbáceas Zonas sin vegetación

LEYENDA

Origen: Mapa Forestal de España

Page 16: Modelos predictivos: datos, métodos, problemas y aplicaciones

Quercus

Q. pyrenaica

Q. coccifera (coscoja) Q. faginea (quejigo) Q. rotundifolia (carrasca) Q. pyrenaica (rebollo) Q. suber (alcornoque)

LEYENDA km2

8 41

12661 940) 2114

Page 17: Modelos predictivos: datos, métodos, problemas y aplicaciones

problemas inmediatos

210

600

3110 270

1500

0 1000 2000 3000 ha

cropland

Pinus sp. plantations

Eucalyptus stands

Quercus sp. formations

generic woodland

CATEGORÍA MFE CATEGORÍA CLC: choperas

CATEGORÍA Quercus Coníferas Choperas Áreas agrícolas

kappa 0.67 0.58 0.06 0.57

ajuste Mapa Forestal de España / Corine Land Cover

discrepancias CLC / MFE en la categoría ‘choperas’

exac

titud

es t

emát

ica

y es

paci

al

información de mala calidad información insuficiente información irregular ausencia de datos negativos

planificación del muestreo referencia espacial exacta

Page 18: Modelos predictivos: datos, métodos, problemas y aplicaciones

selección de las variables independientes

dos tipos de predictores predictores directos: con influencia fisiológica en la vegetación.

• ejemplos: radiación solar, temperaturas extremas. predictores indirectos: sin previsibles relaciones causales.

• ejemplos: latitud, elevación.

• las variables deben tener influencia potencial en la distribución de la vegetación (por ejemplo, como factor limitante).

• las variables deben poder ser conocidas o modelizadas para cualquier área de trabajo.

• las variables deben ser poco redundantes: estadísticamente no correlacionadas.

Page 19: Modelos predictivos: datos, métodos, problemas y aplicaciones

la altitud

El MDE suele utilizarse como estructura raster

Característica principal: tamaño de celda o píxel

Valle del Jerte

Page 20: Modelos predictivos: datos, métodos, problemas y aplicaciones

Los modelos digitales de elevaciones

Fuentes de datos globales: GTOPO30 (1 km):

http://eros.usgs.gov/#/Find_Data/Products_and_Data_Available/gtopo30_info

SRTM (90 m): http://srtm.csi.cgiar.org/ ASTER GDEM (30 m): http://www.gdem.aster.ersdac.or.jp/

Page 21: Modelos predictivos: datos, métodos, problemas y aplicaciones

la pendiente

0

100

200

300

400

500

600

700

800

900

1000

0 5 10 15 20 25 30 35 40 45

pendiente (º)

fr. abs. (x1000) DISTRIBUCIÓN DE FRECUENCIAS

La pendiente es una variable cuyos valores dependen de la resolución espacial.

Distribución no Gaussiana

Page 22: Modelos predictivos: datos, métodos, problemas y aplicaciones

el clima

datos básicos cedidos por la AEMET (http://www.aemet.es/)

método: kriging con gradientes altitudinales locales

resolución: 1000 m estaciones

termométricas: 967 pluviométricas: 2173

Variables: temperatura media de las

máximas mensual temperatura media de las

mínimas mensual Precipitación media

mensual Periodos: 1961-1990 y 1970-

2007

Page 23: Modelos predictivos: datos, métodos, problemas y aplicaciones

Impactos y vulnerabilidad en la flora española

Mapas de temperatura media de las máximas anual

30

20

10

0

(ºC)

2011-2040 2041-2070

2071-2100

Síntesis derivada de los mapas mensuales:

Escenario A2 Modelo CGCM2

Page 24: Modelos predictivos: datos, métodos, problemas y aplicaciones

la insolación o irradiancia

los mapas de insolación potencial, horas de sol directo, y de irradiancia, en W/(m2·día) pueden ser estimados mediante modelos a partir del MDE.

hay que calcular los modelos para varios periodos diferentes del año

AML para la modelización: Niklaus Zimmermann

http://www.wsl.ch/staff/niklaus.zimmermann/

Page 25: Modelos predictivos: datos, métodos, problemas y aplicaciones

la geología, litología y variables afines

los mapas geológicos y litológico son casos donde la variable suele ser nominal, no cuantitativa.

los métodos deben poder utilizar este tipo de variables o será necesario incluirlas a posteriori mediante métodos específicos.

Page 26: Modelos predictivos: datos, métodos, problemas y aplicaciones

Otras posibles variables: distancias

010203040506070

0.40 0.44 0.50 0.57 0.67 0.80 1.00

Rugosidad

t (m

in)

función de asignación

modelo de coste (t ): 1-60 min unidades de tiempo

Page 27: Modelos predictivos: datos, métodos, problemas y aplicaciones

Caminos de coste mínimo

Page 28: Modelos predictivos: datos, métodos, problemas y aplicaciones

Viento

Page 29: Modelos predictivos: datos, métodos, problemas y aplicaciones

¿Cuál fue la ruta de Colón?

Page 30: Modelos predictivos: datos, métodos, problemas y aplicaciones

1-10 enero 2000 11-20 enero 2000 21-31 enero 2000

Caso de variables correlacionadas

Supuesto: búsqueda de ruinas en zonas boscosas. Métodos: ACP (análisis de componentes principales) o ACI (análisis de componentes independientes)

Sensor VEGETATION (http://free.vgt.vito.be/)

Page 31: Modelos predictivos: datos, métodos, problemas y aplicaciones

Caso de variables correlacionadas

El uso de imágenes de satélite o de mapas climáticos en forma de series temporales.

CI1 CI2 CI3

Los tres primeros CI de la serie NDVI de Ecuador

Page 32: Modelos predictivos: datos, métodos, problemas y aplicaciones

Dónde buscar información

Bases de datos biológicas Tropicos, http://www.tropicos.org/ GBIF, Global Biodiversity Information Facility, http://www.gbif.es/ Colecciones en internet: http://www.gbif.es/ColeccionesOnLine.php Bases distribuidas,

http://www.gbif.es/DatosEspecimenes.php#Distribuidas IDE, Infraestructura de Datos Espaciales

luces y sombras: usabilidad, interoperabilidad. IDEE.es Servicio de catálogo: Geonetwork (http://geonetwork-opensource.org/) Nuestro servicio en http://ide.unex.es/

Page 33: Modelos predictivos: datos, métodos, problemas y aplicaciones

Otros problemas con los datos

Muestra inadecuada: reducida: reduce la fiabilidad de

los resultados. con insuficiente resolución:

introduce incertidumbre en las relaciones

sesgada: no representa íntegramente las relaciones.

Ausencia de datos negativos obliga a usar pseudoausencias:

introduce falsos negativos.

Page 34: Modelos predictivos: datos, métodos, problemas y aplicaciones

la construcción de un modelo

REGRESIÓN LOGÍSTICA, MARS (MULTIVARIATE ADAPTIVE REGRESSION SPLINES), CART (CLASSIFICATION AND REGRESSION TREES), MAXENT (MÁXIMA ENTROPÍA)

2 EL MODELO ESTADÍSTICO

Page 35: Modelos predictivos: datos, métodos, problemas y aplicaciones

Proceso general

Construir la muestra depurar y preparar los datos existentes construir una muestra de datos positivos y negativos (acompañados o

no de los valores de las variables independientes)

Construir el modelo estadístico aplicar el método: RLM, CART, MARS (otros: redes neuronales,

algoritmos genéticos...)

Comprobar el modelo estadístico valorar los resultados del modelo de asociación

Aplicar el modelo al territorio en caso de buenos resultados, aplicar el modelo a todo el territorio y

construir el modelo de idoneidad

Page 36: Modelos predictivos: datos, métodos, problemas y aplicaciones

recopilar los datos de presencia

Caso 1: datos de presencia y ausencia Caso 2: sólo datos de presencia

Page 37: Modelos predictivos: datos, métodos, problemas y aplicaciones

construir la muestra

debe definirse un conjunto de puntos (x,y) con datos de presencias y de ausencias

si los datos son de colecciones o registros deben incluirse todos.

si los datos salen de mapas deben hacerse un muestreo sobre el territorio a estudiar.

las ausencias pueden ser conocidas o supuestas (pseudoausencias).

1=presencia 0=ausencia

Ocotea insularis (80 presencias)

Page 38: Modelos predictivos: datos, métodos, problemas y aplicaciones

construir la muestra

sobre cada punto de la muestra se extraen los valores de presencia (1) o ausencia (0) de la especie valor de cada variable independiente utilizada en el modelo

un fichero muestra tiene la estructura siguiente:

PRES XUTM YUTM MDE MDI12N MDI12P MDP 0 370559 4795131 669 17 22 35 1 370609 4795131 692 17 22 31 0 369709 4795081 60 3 15 19 0 370459 4795081 1587 16 20 40 1 370509 4795081 618 17 21 37 0 370609 4795081 664 16 21 34

Page 39: Modelos predictivos: datos, métodos, problemas y aplicaciones

Envueltas ambientales

Ventajas: simples, usan sólo datos de presencias.

Desventajas: No consideran interacciones. Dan el mismo peso a todos

los predictores. Gran sensibilidad a los datos

marginales y al sesgo del muestreo.

No pueden usar variables nominales.

Page 40: Modelos predictivos: datos, métodos, problemas y aplicaciones

Uso de distancias simples

Ventajas: menos sensibles a los datos

marginales. usan sólo datos de presencias pueden considerar correlacio-

nes entre las variables

Desventajas: No consideran interacciones Dan el mismo peso a todos

los predictores. No pueden usar variables

nominales.

Predicción negativa

Variable 1

Varia

ble

2

Predicción positiva

Page 41: Modelos predictivos: datos, métodos, problemas y aplicaciones

División recursiva del espacio de variables

Ventajas: menos sensibles a los datos

marginales. pueden usar variables

nominales.

Desventajas: No consideran interacciones Dan el mismo peso a todos

los predictores. Debe controlarse el

sobreajuste (overfitting).

Page 42: Modelos predictivos: datos, métodos, problemas y aplicaciones

RLM, regresión logística

la regresión logística establece una regresión lineal entre los logits y la variable independiente

ejemplo: probabilidad de rechazo a un impuesto en función de la edad

L = -18.68 + 0.40·edad

-18.68+0.40·edad P =

1

1 + e

logit, L = ln [ P/(1-P) ]

Page 43: Modelos predictivos: datos, métodos, problemas y aplicaciones

RLM, regresión logística

Ventajas: Poco sensible a los datos

marginales. Pueden considerar

interacciones. Pondera los predictores. Pueden usar variables

nominales.

Desventajas: Necesitan datos de presencias

y de ausencias. La relación entre logits y

variables debe ser lineal.

a0 = -780.357 a1 = -0.045 * v1_mde a2 = 0.140 * v2_mdp a3 = 0.000 * v3_mdi a4 = 0.000 * v4_mdi a5 = -0.001 * v5_mdi a6 = 0.000 * v6_mdi … a15 = 0.000 * v15_cuv a16 = 0.025 * v16_flw a17 = 0.000 * v17_fll a18 = -0.011 * v18_upz a19 = -0.020 * v19_ups cf = sum(a0, a1, a2,…, a17, a18, a19) yR2k_1 = (1 div (1 + exp(cf * -1.0)))

Page 44: Modelos predictivos: datos, métodos, problemas y aplicaciones

CART, árboles de clasificación

los árboles de clasificación organizan el espacio mediante sucesivas particio-nes del conjunto de datos original en subgrupos más homogéneos

CART es binario: cada nodo en el nivel n se divide en dos nodos en n+1 el algoritmo busca la secuencia óptima de división con criterios que

combinan el grado de ajuste y la complejidad total del árbol

Classification and Regression Trees

nodos terminales Qpyr: 850 Qsub: 2400 Qrot : 4889 /* Terminal Node 4889 IF (PT4 > 1966.5 & PT1 >

3260.5 & T_JULIO > 32.5 & PT2 > 1969 & PT3 > 677.5 & MDE50 > 503 )

THEN P = 0.00302

Page 45: Modelos predictivos: datos, métodos, problemas y aplicaciones

MARS

MARS ajusta regresiones lineales "segmento por segmento" para no depender de una respuesta lineal

cada segmento de regresión constituye una ‘función básica’ que se enlazan en los puntos de cambio (‘knots’)

Multivariate Adaptive Regression Splines

BASIS FUNCTIONS

0.00

0.05

0.10

0.15

0.20

0.25

0 50 100 150 200

INDEPENDENT VARIABLE

PRO

BABI

LITY

BF1 = max(0, PT4 - 3431.0); BF2 = max(0, 3431.0 - PT4) BF4 = max(0, 1181.0 - mde50); BF5 = max(0, PT4 - 2311.0) * BF4 BF6 = max(0, 2311.0 - PT4) * BF4; ... BF44 = max(0, 2138.0 - PT2) * BF7

qpyr_mars = 2.254 + .419601E-03 * BF1 - 0.002 * BF2 - .953759E-03 * BF4 + .671450E-07 * BF5 + .194687E-05 * BF6 - .794157E-05 * BF7

... + .104245E-06 * BF43 + .332007E-06 * BF44 + .238371E-04 * BF45

Page 46: Modelos predictivos: datos, métodos, problemas y aplicaciones

Método propuesto por Phillips et al.: acrónimo de “máxima entropía”. usa presencias y genera pseudo-

ausencias. admite variables nominales. permite proyectar el modelo actual a

otros escenarios. multiplataforma (Java). puede ser llamado desde scripts

externos para automatización. memoria limitada en S.O. de 32 bits a

1.3 Gb.

Propiedades

Apariencia de Maxent en modo interactivo

Steven J. Phillips, Robert P. Anderson, Robert E. Schapire. 2006. Maximum entropy modeling of species geographic distributions. Ecological Modelling, 190(3-4): 231-259.

Steven J. Phillips, Miroslav Dudik , 2008. Modeling of species distributions with Maxent: new extensions and a comprehensive evaluation. Ecography, 31: 161-175.

MAXENT http://www.cs.princeton.edu/~schapire/maxent/

Page 47: Modelos predictivos: datos, métodos, problemas y aplicaciones

Tratamiento de las variables nominales: odds

fundamentos: los odds son el cociente entre la probabilidad de presencia y la de ausencia de una especie en una clase.

hayedo si no

total

litología pizarra marga cuarci caliza total

345 141

486

182 2077

2259

125 550

675

8 302

310

660 3070

3730

O(haya|pizarra) = (345/486)/(141/486) = 345/141 = 2,447

O(haya) = (660/3720)/(3070/3730) = 660/3070 = 0,215

odd a priori del hayedo

odd a posteriori dada la presencia de pizarras

Page 48: Modelos predictivos: datos, métodos, problemas y aplicaciones

La favorabilidad es la razón entre los odds a posteriori y el odd a priori.

los pesos de evidencia W+ son el logaritmo de la favorabilidad:

tanto W+ como la favorabilidad son indicadores de asociación entre las clases de la variable y la presencia de la especie.

los resultados pueden representarse gráficamente como lo que se ha llamado perfiles ponderados o perfiles “ecológicos”.

Pesos de evidencia (weigths of evidence)

O(haya) = 0,215 O(haya|pizarras) = 2,457

F(haya|pizarras) = 11,38

W+ (haya|pizarras) = ln 11,38 = 2,43

Page 49: Modelos predictivos: datos, métodos, problemas y aplicaciones

Perfiles ponderados

-1.00

-0.50

0.00

0.50

1.00

1.50

2.00

2.50

6 7 12 13 15 17 18 23 27 42 43 44 45 46 47 49 51 53 54 59 60

-1.00

-0.50

0.00

0.50

1.00

1.50

2.00

2.50

6 7 12 13 15 17 18 23 27 42 43 44 45 46 47 49 51 53 54 59 60

W+

litología

hayedo

carrascal

Fagus sylvatica

Quercus rotundifolia

P’(x) = P(x) · f(W+ LITO)

Page 50: Modelos predictivos: datos, métodos, problemas y aplicaciones

la construcción de un modelo

SENSIBILIDAD, ESPECIFICIDAD CURVA ROC Y ÁREA BAJO LA CURVA (AUC)

3 EL CONTROL DEL ERROR

Page 51: Modelos predictivos: datos, métodos, problemas y aplicaciones

Conceptos sobre el error

los modelos estadísticos se construyen con las llamadas muestras o datos de entrenamiento (training samples/datasets) y deben contrastarse con las muestras de validación (testing samples)

error de comisión: falsos positivos (el modelo predice presencia pero realmente no existe)

error de omisión: falsos negativos (el modelo predice ausencia pero la especie existe realmente)

sensibilidad: % de presencias correctamente predichas respecto al total de presencias

especificidad: % de ausencias correctamente predichas respecto al total de ausencias

exactitud (accuracy): % de ausencias y presencias correctamente predichas respecto al total de casos.

Page 52: Modelos predictivos: datos, métodos, problemas y aplicaciones

Ejemplo médico

Una prueba se usa para diagnosticar si una persona tiene una enfermedad o no a través de una serie de valores analíticos.

Dicha prueba se valida con una muestra de personas independiente cuyos resultados son (0: sano, 1: enfermo):

0

224453 2230

226683

PREDICHO TOTAL

245377 42590

287967

1

20924 40360

61284

0 1

TOTAL

REAL sensibilidad n00/(n00+n01) n11/(n10+n11) especificidad

falsos positivos: 20924 falsos negativos: 2230

sensibilidad: 224453/226683 = 0,990 especifidad: 20924/61284 = 0,341

exactitud : (224453+40360)/287967 = 0,920

Page 53: Modelos predictivos: datos, métodos, problemas y aplicaciones

¿qué hacer ante resultados no dicotómicos?

Las tablas anteriores (tablas de confusión) necesitan comparar valores dicotómicos (si/no, presente/ausente, enfermo/sano)

Los modelos estadísticos nos dan habitualmente resultados probabilísticos en un continuo entre 0 (ausencia) y 1 (presencia).

Para hacer las tablas es necesario segmentar los valores en sólo dos clases lo cual se hace a partir de un valor umbral (threshold value)

Usar un umbral de corte = 0,5 es habitual pero arbitrario 0,0 1,0

0,0 1,0

0,35

0,55

Los valores de sensibilidad y

especificidad varían con el valor umbral

Page 54: Modelos predictivos: datos, métodos, problemas y aplicaciones

umbral de corte y errores

Umbral

0,35 0,50 0,70

Ejemplos realizados con MARS

Exact

39,9 58,0 75,0

Sens

0,13 0,43 0,87

Espec

0,99 0,91 0,49

Umbral óptimo

0,69

Exact

75,4

Sens

0,85

Espec

0,53

Umbral (95% error omisión.) = 0,45

Page 55: Modelos predictivos: datos, métodos, problemas y aplicaciones

curva de exactitud ante umbral

La mayor exactitud general es una solución de compromiso que no siempre es adecuada ya que asume igual coste para los dos tipos de error.

baja sensibilidad alta alta especificidad baja

Umbral óptimo

Page 56: Modelos predictivos: datos, métodos, problemas y aplicaciones

asignando costes diferentes al error

La evaluación de costes permite elegir el valor umbral óptimo en cada caso.

0

0,0 0,5

PREDICHO 1

0,5 0,0

0 1

REAL 0

0,0 0,1

PREDICHO 1

0,9 0,0

0 1

REAL

0

0,0 0,9

PREDICHO 1

0,1 0,0

0 1

REAL

Page 57: Modelos predictivos: datos, métodos, problemas y aplicaciones

curva de exactitud ante umbral

La mayor exactitud general es una solución de compromiso que no siempre es adecuada ya que asume igual coste para los dos tipos de error.

Page 58: Modelos predictivos: datos, métodos, problemas y aplicaciones

curva ROC y AUC

1 – especificidad : P(predicho cierto | falso) Sens

ibili

dad

: P(

pred

icho

cie

rto

| ci

erto

)

Curva ROC para Abies alba se llama curva ROC (receiver

of characteristic) a la representación gráfica de los valores de sensibilidad y especificidad para diversos valores de corte.

El área bajo la curva (AUC, Area Under the Curve) es un estadístico de ajuste independiente del umbral de corte.

AUC permite comparar métodos diferentes.

AUC = 0,5 modelo aleatorio

AUC = 1,0 ajuste

perfecto

Page 59: Modelos predictivos: datos, métodos, problemas y aplicaciones

Casos reales de AUC

réplicas MLR MARS CART MAXENT 1 0.724 0.767 0.887 0.772 2 0.734 0.762 0.892 0.779 3 0.757 0.774 0.903 0.796 4 0.734 0.786 0.911 0.785 5 0.740 0.767 0.908 0.779 6 0.742 0.771 0.890 0.781 7 0.749 0.778 0.909 0.781 8 0.733 0.764 0.913 0.773 9 0.752 0.784 0.902 0.793 10 0.745 0.783 0.913 0.803

Media IC 95%

0.741 (0.732-0.750)

0.774 (0.748-0.799)

0.903 (0.827-0.979)

0.784 (0.764-0.804)

Valores de AUC: predicción de riesgo de deslizamientos en laderas

Page 60: Modelos predictivos: datos, métodos, problemas y aplicaciones

la construcción de un modelo

MODELOS DE IDONEIDAD

4

LOS RESULTADOS

Page 61: Modelos predictivos: datos, métodos, problemas y aplicaciones

Fagus sylvatica, haya

zona idónea

zona incompatible

los modelos reflejan la idoneidad del territorio para la especie.

las zonas de alta idoneidad son las más similares a las ocupadas actualmente desde el punto de vista de las variables climáticas.

los modelos de distribución potencial no son causales, sólo reflejan correlaciones.

Page 62: Modelos predictivos: datos, métodos, problemas y aplicaciones

El mapa de distribución potencial es continuo en el rango 0-1.

Para las operaciones estadísticas y cálculo de superficies se define un umbral que separa dos clases: idóneo e inadecuado (mapas binarios).

El criterio seguido ha sido: se generan mapas binarios

para todos los puntos de corte se elige aquél que engloba al

99.75% de las presencias se acepta, por tanto, un 0.25% de

error (presencias fuera del área potencial). zona idónea

zona incompatible

Mapa binario para Fagus sylvatica, haya

Page 63: Modelos predictivos: datos, métodos, problemas y aplicaciones

Algunas especies son incompatibles con algunas clases litológicas.

Proceso para introducir el factor: se calculan las presencias en

cada clase litológica. se anula el valor de idoneidad

en las clases con presencia nula.

se asume que este proceso reducirá el potencial error de incluir litologías incompatibles pero con clima idóneo.

la mayor parte de las exclusiones son pantanos y embalses.

zona idónea zona incompatible

zona de exclusión litológica

Corrección litológica: Chamerops humilis

Page 64: Modelos predictivos: datos, métodos, problemas y aplicaciones

Se combinan los mapas actuales y futuros calculando su superposición: entre la zona ocupada actual y la zona idónea futura entre la zona idónea actual y la zona idónea futura

Modelos para Chamaerops humilis

Proyección a otros escenarios

Page 65: Modelos predictivos: datos, métodos, problemas y aplicaciones

Se consiguen sumando los mapas binarios de todas las especies.

Mapa de riqueza potencial actual

Modelos de riqueza específica

Page 66: Modelos predictivos: datos, métodos, problemas y aplicaciones

riesgo de deslizamientos de ladera Riesgos de deslizamientos de ladera Cuenca de Deba (País Vasco)

Page 67: Modelos predictivos: datos, métodos, problemas y aplicaciones

Modelos de consenso

¿Qué método es el mejor? La ausencia de respuestas

fiables ha llevado a usar los modelos de consenso, donde se combinan modelos hechos con métodos diferentes.

Page 68: Modelos predictivos: datos, métodos, problemas y aplicaciones

Deslizamientos

Modelo CART

Modelo MARS

Page 69: Modelos predictivos: datos, métodos, problemas y aplicaciones

Deslizamientos

Modelo RLM

Modelo de consenso

Page 70: Modelos predictivos: datos, métodos, problemas y aplicaciones

Modelos en Extremadura

Q. pyrenaica Q. rotundifolia Q. suber

idóneo incompatible

Page 71: Modelos predictivos: datos, métodos, problemas y aplicaciones

MDE 50 m celda

TOPOGRAFÍA 20 m intervalo

VEGETACIÓN

muestreo

regresión logística

modelos preliminares

modelo

bosque n

MDP pendiente

INSOL D=-12º

INSOL D=+12º

mod

elos

dig

itale

s

LITOLOGÍA

mod

elos

bin

ario

s perfiles

litologías limitantes

bosque 1 muestra

bosque 2 muestra

bosque n muestra

...

modelo

bosque n

modelos mixtos

Ejemplo de proceso

Page 72: Modelos predictivos: datos, métodos, problemas y aplicaciones

modelo de vegetación potencial

modelos de idoneidad

0.25

0.51

0.72

0.33

Cq

Mf

Qp

Bf

Mf

modelo de potencialidad

135

15

720

125

Cq

Mf

Qp

Bf

modelos de distancia

la construcción de modelos de potencialidad se realiza combinando los valores de idoneidad los valores de distancia a las celdas ‘madre’ más próximas

Page 73: Modelos predictivos: datos, métodos, problemas y aplicaciones

modelo de vegetación potencial de Extremadura

Quercus pyrenaica suber rotundifolia

Page 74: Modelos predictivos: datos, métodos, problemas y aplicaciones

abedular Betula alba

rebollar Quercus pyrenaica

robledal albar oligótrofo Quercus petraea

embalse del Ebro

quejigal Quercus faginea

hayedo oligótrofo Fagus sylvatica

modelo de vegetación potencial de Valderredible (Cantabria)

Page 75: Modelos predictivos: datos, métodos, problemas y aplicaciones

modelo de vegetación potencial de Cantabria

Page 76: Modelos predictivos: datos, métodos, problemas y aplicaciones

aplicaciones

evolución de la riqueza específica en Ecuador ante escenarios de cambio global

zona de estudio: Ecuador variables: 19 variables bioclimáticas (1 km de resolución espacial) sujetos: 450-600 especies de Aráceas, Bignoniáceas, Bromeliáceas,

Gesneriáceas y Lauráceas. origen: base de datos TROPICOS (Missouri Botanical Garden) escenarios temporales: actual y futuros previstos según modelos de

cambio climático (HadCM3) procedimiento: elaboración de modelos actuales y en escenarios

futuros, suma de modelos (riqueza específica), comparación entre escenarios resultados