008-Formalismo

30
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE 03 - 03 - El Modelo El Modelo Probabilístico en Probabilístico en Geoestadística Geoestadística Interpretación probabilística Interpretación probabilística Variables aleatorias Variables aleatorias Funciones de distribución y de densidad de Funciones de distribución y de densidad de probabilidad probabilidad Momentos Momentos Ejemplos de distribuciones Ejemplos de distribuciones Distribuciones bivariables y multivariables Distribuciones bivariables y multivariables Noción de función aleatoria Noción de función aleatoria

description

GEOESTADISTICA

Transcript of 008-Formalismo

03 - El Modelo Probabilístico en Geoestadística03 - El Modelo Probabilístico en Geoestadística
Interpretación probabilística
Variables aleatorias
Momentos
Interpretación
Los fenómenos en Ciencias de la Tierra involucran procesos complejos, luego, parecen aleatorios. Sin embargo, los datos verdaderos no son resultado de un proceso aleatorio: se trata solamente de una interpretación por nuestro desconocimiento de la realidad.
El valor de la variable regionalizada en un punto z(u) se interpreta como la realización (outcome) de una variable aleatoria Z(u).
Algunos problemas:
¿Cómo hacer inferencia acerca de la variable aleatoria si sólo disponemos de una realización?
Inferencia y Modelamiento
Variable aleatoria
Variable aleatoria: Una función Z desde un espacio muestreal S en los números reales. Una forma de representar un valor z no muestreado (desconocido). Se denota con letra mayúscula
La variable aleatoria Z puede tomar cualquier valor dado por su distribución de probabilidad. Ésta modela la incertidumbre respecto a su realización z. La variable puede ser continua o discreta:
Variable continua: puede tomar valores en forma continua entre dos valores dados: ley, densidad, concentración, precio,...
Variable discreta o categórica: pertenece a una clase.
Ejemplo: códigos de litología
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Función de distribución acumulada
Función de Distribución Acumulada (fda) de una variable aleatoria Z:
Está definida para todos los valores de z
Puede ser una función discontinua
y
es una función no-decreciente
Esta fórmula entrega el área bajo la función de densidad de probabilidad de la variable aleatoria Z, y equivale a la probabilidad de que la variable aleatoria Z sea menor o igual a un valor de corte z.
Probabilidad acumulada
Función de distribución acumulada
La probabilidad de superar cualquier valor de corte z se escribe:
La probabilidad de que Z pertenezca a un intervalo [a,b] (donde b>a) es la diferencia entre los valores de la función de distribución acumulada evaluada en los puntos b y a:
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Función de distribución acumulada
Teorema: (importante para entender porqué la simulación de Monte-Carlo funciona):
Sea Z una variable aleatoria con función de distribución acumulada continua y definamos la variable aleatoria Y como . Entonces Y está distribuida uniformemente entre 0 y 1, es decir,
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Función de densidad de probabilidad
La función de densidad de probabilidad (fdp) es la derivada de la fda, si es derivable:
La fda se obtiene integrando la fdp:
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Función de densidad de probabilidad
Propiedades de la función de densidad de probabilidad:
f(z) 0
Gráfico de probabilidad acumulativo
Permite ver todos los datos en un gráfico, reconocer y separar poblaciones estadísticas
Permite también detectar valores extremos
Puede usarse para verificar modelos de distribución:
Línea recta en escala aritmética distribución normal
Línea recta en escala logarítmica distribución lognormal
Pequeñas divergencias pueden ser importantes (especialmente en los extremos)
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Valores extremos
¿Qué hacer con ellos?:
Clasificarlos en poblaciones estadísticas separadas
Usar estadísticas robustas, que son menos sensibles a los valores extremos: mediana, coeficiente de correlación de posición
Transformar los datos para reducir su influencia
Bajarlos a un máximo “razonable”
Outliers: Observaciones que parecen no pertenecer a la misma población constituida por el resto de los datos. Generan considerables problemas al aplicar regresión, debido a que tienen un efecto desproporcionado sobre los valores estimados
Se puede eliminar los datos considerados extremos (outliers) sólo si se ha comprobado que están errados. En caso de ser datos verdaderos, proveen información que puede ser crítica para la respuesta del modelo.
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Suavizamiento de distribuciones experimentales
Pocos datos: estadísticas y gráficos erráticos
Suavizamiento de la distribución experimental permite reducir las fluctuaciones, aumentar la resolución de clases y extender la distribución mas allá de los valores mínimo y máximo de la muestra
Técnicas de suavizamiento más flexibles (programación cuadrática) se han aplicado para suavizar histogramas y gráficos de dispersión: mantienen las estadísticas de la muestra.
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Momentos
Esperanza: (primer momento) es un promedio ponderado por las
probabilidades, si existe. Da una idea del centro de la distribución
Caso discreto
wi = probabilidad de ocurrencia
Momentos
Propiedades de la esperanza:
La varianza (segundo momento centrado). Nos da una idea de la dispersión de la distribución de la variable aleatoria Z. Se define como la esperanza de la desviación de Z respecto de su media al cuadrado:
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Momentos
Momentos
La varianza es una medida de la dispersión de los datos en torno a la media.
Propiedades de la varianza
La desviación estándar, , que es la raíz cuadrada de la varianza, también es una medida de la variabilidad de los datos respecto a la media. Se escribe en las mismas unidades de la variable.
El coeficiente de variación (CV), que es adimensional, es la razón entre la desviación estándar y la media (s/m).
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Distribución Uniforme
Distribución Dirac
fda
fdp
Momentos:
Distribución Normal (Gaussiana)
La distribución Gaussiana queda completamente caracterizada por dos parámetros, la media m y la varianza 2:
La fdp normal estándar tiene una media de cero y una desviación estándar de uno:
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Distribución Normal (Gaussiana)
La fda de la distribución gaussiana G(z) no tiene una expresión analítica simplificada, pero la fda normal estándar Go(z) está tabulada en la literatura:
Si y definimos: , entonces:
La media y mediana son iguales
La fdp g(m+z) = g(m-z)
0
2
4
6
8
10
12
14
16
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
g(z)
z
95 %
2.5%
2.5%
Distribución Lognormal
Si Z es una variable aleatoria cuyo logaritmo está distribuido como una normal, entonces Z tiene distribución lognormal.
Muy interesante en Ciencias de la Tierra
Distribución sesgada hacia la derecha (cola larga de valores altos): asimétricas
0
2
4
6
8
10
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
g(z)
z
0
2
4
6
8
10
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
z
G(z)
Distribución Lognormal
Las distribuciones lognormales también se caracterizan por dos parámetros: media y varianza. Sin embargo, pueden caracterizarse ya sea por los parámetros aritméticos (m y 2) o por los parámetros logarítmicos ( y 2).
La fda y fdp lognormal se expresan mas fácilmente en función de sus parámetros logarítmicos:
Las relaciones entre los parámetros aritméticos y logarítmicos son:
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Combinación de distribuciones
De la combinación de distribuciones resulta una nueva distribución.
F(z) =kkF'k(z) es un modelo de distribución si las F'k(z) son funciones de distribución y si los k son positivos y suman 1.
Codificación disyuntiva de un histograma experimental de datos z1, z2… zn:
Una suma de n distribuciones Dirac de parámetros zi e igual amplitud 1/n
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Teorema del Límite Central
La suma o la media de un gran número de variables aleatorias estandarizadas independientes igualmente distribuidas (no necesariamente Gaussianas) tiende a distribuirse en forma normal. Es decir, si n variables aleatorias Zi tienen la misma fda y medias m, su media tiende hacia una fda normal, cuando n tiende a infinito.
Corolario: el producto de un gran número de variables aleatorias positivas, independientes e idénticamente distribuidas tiende a distribuirse en forma lognormal
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Distribución bivariable
Función de densidad de probabilidad conjunta: de R2 en R es la función de densidad de probabilidad conjunta del vector aleatorio bivariable (Z1,Z2) si para cada :
1598.unknown
Distribución bivariable
Distribuciones marginales (univariables):
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Distribución bivariable
Distribución bivariable
El momento de segundo orden de una distribución bivariable es la covarianza, definida como:
La covarianza entre la variable y ella misma es su varianza:
Cov{Z1,Z2} = Var{Z1}; Cov{Z2,Z2} = Var{Z2}
El coeficiente de correlación entre dos variables se define como la covarianza estandarizada por las desviaciones estándar:
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Distribución multivariable
Caracteriza cómo se distribuyen conjuntamente las distintas variables aleatorias
Se utiliza para describir la distribución de los valores de la variable regionalizada en el espacio, al considerar el conjunto de las variables aleatorias en el dominio de interés:
MI54A EVALUACIÓN DE YACIMIENTOS – UNIVERSIDAD DE CHILE
Noción de función aleatoria
Función Aleatoria: el conjunto de las variables aleatorias en un dominio:
La variable regionalizada es una realización
de una función aleatoria
Es importante caracterizar cómo se correlacionan estas variables aleatorias, de modo de modelar la continuidad espacial de los valores de la variable regionalizada
→ “análisis variográfico”
Noción de función aleatoria
{
}
Ejemplo de distribuciones en filas horizontales
La media corresponde a la de la línea MN de regresión
s
Z1/Z2
2
de la línea KL de regresión
s
Z2/Z1
2
1