Post on 26-Jun-2020
Tarea 1. AED
______________________________________________________________________
1
Curso de Geoestadística
Posgrado UNAM - IMP
Tarea1: AED
ANÁLISIS EXPLORATORIO DE DATOS DE POZOS DE AGUA:
RELACIÓN Li VS. F
Tarea 1. AED
______________________________________________________________________
2
CONTENIDO:
1. INTRODUCCIÓN 2. UBICACIÓN DE LA ZONA DE ESTUDIO 3. ESTADÍSTICA UNIVARIADA:
i. DATOS DE LITIO ii. DATOS DE FLUORURO
4. ESTADÍSTICA BIVARIADA 5. CONCLUSIONES
1. INTRODUCCIÓN En algunas partes del mundo, tales como ciertas áreas de la India, Kenya y Tanzania, los
suministros de agua natural contienen niveles elevados de flúor ∼ 4 ppm. Estas
concentraciones de flúor suelen generar importantes efectos en la salud de la población:
fluorosis dental y esquelética.
Al padecer de fluorosis dental, la dentadura de la persona es invadida por parches
blancos, para posteriormente volverse de color café con áreas decoloradas. (Foto 1). La
fluorosis esquelética tiene consecuencias más serias y puede resultar de un prolongado
consumo de agua con mayores niveles de flúor de 4 a 15 ppm. Un estudio realizado en el
norte de Tanzania reveló una alta incidencia de anormalidades fluoróticas en los huesos de
sujetos mayores que usualmente consumían agua con altos niveles de flúor. Los
exámenes radiológicos demostraron que los huesos son muy densos o escleróticos y que
la calcificación anormal es común en los ligamentos intervertebrales, donde los tendones
unen los músculos a los huesos. La foto 2 muestra un ejemplo en el antebrazo. La
fluorosis esquelética puede causar dolor de espalda y rigidez, así como deformidades
neurológicas.
Tarea 1. AED
______________________________________________________________________
3
¡Error!
En el área escogida para realizar el análisis estadístico los valores de Fluoruro tienen un
rango de 0.08-9.8 ppm, por lo que es importante conocer el origen y el comportamiento
de dicho ion. La Norma oficial Mexicana No 127 establece un límite máximo permisible de
1.5 ppm. Sin embargo, como se ha observado a nivel mundial, las variaciones en las
concentraciones afectan de forma diferente, por lo que este trabajo podría servir de base
para establecer limites máximos por regiones.
2. UBICACIÓN DE LA ZONA DE ESTUDIO
El estudio se enfoca en las baterías que suministran agua potable a la Ciudad de León
Guanajuato. La ciudad cuenta con un millón de habitantes y sus actividades económicas
industriales y agrícolas demandan grandes cantidades de agua. Además, la zona posee
∼1200 pozos activos, de los cuales el 70% es utilizado para riego, el 21% para el
suministro municipal, y el 9% restante para uso industrial. Las baterías con la que la
Ciudad de León (Guanajuato) se abastece de agua potable son: Batería Ciudad, Turbio,
Sur, Poniente y Oriente con un total de 119 pozos (Figura 1).
FOTO 1. Efectos de la fluorosis dental. FOTO 2. Radiografía de los antebrazos de una persona con fluorosis esquelética, se evidencia una mayor densidad ósea y calcificación entre el radio y el cubito
Tarea 1. AED
______________________________________________________________________
4
Figura 1. Distribución de baterías de pozos que suministran agua potable a la ciudad de León, Guanajuato. En Azul, la batería Muralla; en negro, la batería Turbio; en azul claro, la batería Sur; en violeta la batería Poniente y en amarillo, la batería Oriente.
Para el análisis exploratorio de los datos, demás del Fluoruro (F), se eligió el ion de Litio
(Li). Estas variables fueron colectados en 50 pozos de agua potable y tres manantiales,
localizados en un área de 40 km x 40 km (Figura 2). En total son 53 datos, cuyos valores
se encuentran listados en la Tabla 1. Las diferentes familias de cuerpos de agua presentes
en el área de estudio se especifican la figura 3.
Tanto el muestreo como los análisis de laboratorio se realizaron bajo estrictas normas
de calidad. Las concentraciones de Li y F se encuentran en ppm. Seguidamente se
presentan los resultados del análisis exploratorio de los datos por separado.
Muralla
Silao
León
Irapuato
Guanajuato
180000 210000 240000 270000
22
9000
023
200
0023
500
00
Leon Valley
Turbio Valley
102° 00´ 101° 30´ 101° 05´
21°
11
´2
1° 1
3.5
1´
Gua
naju
ato
Riv
er
Sila
o R
iver
Gav
ia R
iver
T urb
i o R
ive r
Los G
omez
River
ALTOS DE
JALISCO
GUANAJUATO RANGE
Comanjilla spring
Tultitlan spring
0 10 20 km
Guanajuato
MEXICO
Tarea 1. AED
______________________________________________________________________
5
200000 205000 210000 215000 220000 225000 230000 235000 240000
2305000
2310000
2315000
2320000
2325000
2330000
2335000
2340000
2345000
Figura 2. Acercamiento de la distribución de pozos, las coordenadas están dadas en UTM. El área es de ∼40 km x 40 km.
Figura 3. Diagrama de Piper que muestra el comportamiento de cuatro familias de agua. En la construcción del diagrama se utilizan variables (iones) Li y F.
Ojo de Agua
Noria
Comanjil la
Tarea 1. AED
______________________________________________________________________
6
Tabla 1. Datos de F y LI usados para el AED.
Tarea 1. AED
______________________________________________________________________
7
3. ESTADÍSTICA UNIVARIADA:
Para realizar el AED se usó una mezcla de programas u hojas de cálculos, entre ellos:
Statistica, Gnumeric y Excel.
DATOS DE LITIO
El histograma de frecuencia para esta variable mostró una distribución lejana a la normal
o gausiana, como se muestra en la figura 4. Es leptocurtica y con asimetría positiva. Se
observa con claridad un valor atípico, el cual resalta aún más en el diagrama Box Plot,
pues está muy alejado del intervalo intercuartil (25%-75%), escapando incluso del rango
non-outlier. La mediana es menor que el valor medio y este a su vez es menor que la
desviación estándar de la muestra. En la tabla adjunta a la figura 4 se muestran todos los
valores estadísticos de la variable Li.
Histograma de Frecuencia LI
-0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2
LI (0.01 mg/L)
0
5
10
15
20
25
30
35
40
No
of o
bs
Box Plot LI
Box Plot (Tare 1 con Statistica 10v*53c) Median = 0.0438 25%-75% = (0.029, 0.1346) Non-Outlier Range = (0.0144, 0.2299) Extremes
-0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2
LI (0.01 mg/L)
Figura 4. Histograma y Box Plot de Datos LI.
0.13463er Cuartil
0.0291er Cuartil
53Cuenta
4.9350Suma
1.0770Máximo
0.0140Mínimo
1.0630Rango
5.6640Simetría
37.1060Curtosis
0.0220Varianza de la muestra
0.1500Desviación estándar
0.0290Moda
0.0440Mediana
0.0210Error estándar
0.0930Media
ValoresEstadísticas LI
0.13463er Cuartil
0.0291er Cuartil
53Cuenta
4.9350Suma
1.0770Máximo
0.0140Mínimo
1.0630Rango
5.6640Simetría
37.1060Curtosis
0.0220Varianza de la muestra
0.1500Desviación estándar
0.0290Moda
0.0440Mediana
0.0210Error estándar
0.0930Media
ValoresEstadísticas LI
Tarea 1. AED
______________________________________________________________________
8
De igual forma, el grafico Q-Q refleja una distribución normal para la mayoría de los datos,
exceptuando el valor atípico antes mencionado (figura 5).
Al eliminar el valor atípico y graficar el histograma de los otros 52 datos, se obtiene una
distribución de frecuencias bastante más homogénea (figura 5). Sin embargo aun se
conserva, en menor proporción, el rasgo característico de simetría positiva, por lo cual la
media continúa siendo superior que la mediana. La curtosis en este caso se hace
planicurtica. El diagrama de Box Plot refleja mayor paridad entre el grupo de datos,
ampliándose el intervalo intercuartil. En la tabla adjunta a la figura 5 se muestran todos
los valores estadísticos de la variable Li excluyendo el valor atípico.
La correspondiente grafica Q-Q muestra una mayor variabilidad de los residuos en escala
lineal (figura 6). Esto se debe precisamente a la mayor dispersión de los datos. Al realizar
pruebas de ajuste en la escala se observó que al tomar una escala exponencial en el eje X
mejoraba la aproximación lineal del grafico Q-Q (figura 7).
Quantile-Quantile Plot of LI (0.01 mg/L)
Distribution: Normal
LI (0.01 mg/L) = 0.0931+0.0972*x
-3 -2 -1 0 1 2 3
Theoretical Quantile
0.01 0.05 0.25 0.50 0.75 0.90 0.99
-0.2
0.0
0.2
0.4
0.6
0.8
1.0
1.2
Obs
erve
d V
alue
Figura 5. Q-Q plot de datos LI.
Tarea 1. AED
______________________________________________________________________
9
Histograma LI (sin Outlier)
Histogram (Tare 1 con Statistica 10v*53c)
-0.02 0.02 0.04 0.08 0.10 0.12 0.14 0.16 0.18 0.20 0.22 0.24
LI (0.01 mg/L)
0
2
4
6
8
10
12
14
16
18
20
No
of o
bs
Box Plot (Tare 1 con Statistica 10v*53c)
Median = 0.0428 25%-75% = (0.0276, 0.123) Non-Outlier Range = (0.0144, 0.2299)
0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18 0.20 0.22 0.24
LI (0.01 mg/L)
Histograma LI (sin Outlier)
Histogram (Tare 1 con Statistica 10v*53c)
-0.02 0.02 0.04 0.08 0.10 0.12 0.14 0.16 0.18 0.20 0.22 0.24
LI (0.01 mg/L)
0
2
4
6
8
10
12
14
16
18
20
No
of o
bs
Box Plot (Tare 1 con Statistica 10v*53c)
Median = 0.0428 25%-75% = (0.0276, 0.123) Non-Outlier Range = (0.0144, 0.2299)
0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18 0.20 0.22 0.24
LI (0.01 mg/L)
0.1233er Cuartil
0.02761er Cuartil
52Cuenta
3.8579Suma
0.2299Máximo
0.0144Mínimo
0.2155Rango
0.9407Simetría
-0.1765Curtosis
0.0035Varianza de la muestra
0.0593Desviación estándar
0.0294Moda
0.0428Mediana
0.0082Error estándar
0.0742Media
ValoresEstadísticas LI
(Sin Outlier)
0.1233er Cuartil
0.02761er Cuartil
52Cuenta
3.8579Suma
0.2299Máximo
0.0144Mínimo
0.2155Rango
0.9407Simetría
-0.1765Curtosis
0.0035Varianza de la muestra
0.0593Desviación estándar
0.0294Moda
0.0428Mediana
0.0082Error estándar
0.0742Media
ValoresEstadísticas LI
(Sin Outlier)
Figura 5. Histograma y Box Plot de Datos LI (sin Outlier)
Quantile-Quantile Plot of LI Sin Outlier (0.01 mg/L) (Tare 1 con Statistica)
Distribution: Normal
LI (0.01 mg/L) = 0.0742+0.0559*x
-3 -2 -1 0 1 2 3
Theoretical Quantile
0.01 0.05 0.25 0.50 0.75 0.90 0.99
-0.10
-0.05
0.00
0.05
0.10
0.15
0.20
0.25
Obs
erve
d V
alue
Figura 6. Q-Q Plot de datos LI. Ajuste Lineal.
Tarea 1. AED
______________________________________________________________________
10
DATOS DE FLUORURO El comportamiento de este grupo de datos resultó similar a los de Litio. Muestra de ello se
observa en el histograma de frecuencia para esta variable, el cual tampoco presenta una
distribución normal o gausiana (figura 8). Es de tipo leptocurtica y con asimetría positiva.
Al igual que en el caso anterior, se observa un valor atípico, el cual resalta aún más en el
diagrama Box Plot, pues está muy alejado del intervalo intercuartil. La mediana es menor
que el valor medio y este a su vez es menor que la desviación estándar de la muestra. En
la tabla adjunta a la figura 8 se muestran todos los valores estadísticos de la variable F.
Por otra parte, el grafico Q-Q refleja una distribución normal para la mayoría de los datos,
destacándose el valor atípico al extremo superior derecho del mismo (figura 9).
Quantile-Quantile Plot of LI (0.01 mg/L) (Tare 1 con Statistica 10v*53c)
Distribution: Exponential
LI (0.01 mg/L) = 0.0146+0.0605*x
-0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
Theoretical Quantile
0.01 0.50 0.75 0.90 0.95 0.99
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
0.16
0.18
0.20
0.22
0.24
0.26
0.28
0.30
Obs
erve
d V
alue
Figura 7. Q-Q Plot de datos LI. Ajuste Exponencial.
Tarea 1. AED
______________________________________________________________________
11
Histograma Fluoruro
-1 0 1 2 3 4 5 6 7 8 9 10 11
F (0.1 mg/L)
0
5
10
15
20
25
30
35
40
45
No
of o
bsBox Plot F
Box Plot (Tare 1 con Statistica 10v*53c)
Median = 0.43 25%-75% = (0.22, 0.91) Non-Outlier Range = (0, 1.45) Outliers Extremes
-2 0 2 4 6 8 10 12
F (0.1 mg/L)
Histograma Fluoruro
-1 0 1 2 3 4 5 6 7 8 9 10 11
F (0.1 mg/L)
0
5
10
15
20
25
30
35
40
45
No
of o
bsBox Plot F
Box Plot (Tare 1 con Statistica 10v*53c)
Median = 0.43 25%-75% = (0.22, 0.91) Non-Outlier Range = (0, 1.45) Outliers Extremes
-2 0 2 4 6 8 10 12
F (0.1 mg/L)
0.913er Cuartil
0.221er Cuartil
53Cuenta
39.5100Suma
9.8000Máximo
0.0000Mínimo
9.8000Rango
6.0880Simetría
41.1250Curtosis
1.8110Varianza de la muestra
1.3460Desviación estándar
0.7100Moda
0.4300Mediana
0.1850Error estándar
0.7450Media
ValoresEstadísticas F
0.913er Cuartil
0.221er Cuartil
53Cuenta
39.5100Suma
9.8000Máximo
0.0000Mínimo
9.8000Rango
6.0880Simetría
41.1250Curtosis
1.8110Varianza de la muestra
1.3460Desviación estándar
0.7100Moda
0.4300Mediana
0.1850Error estándar
0.7450Media
ValoresEstadísticas F
Figura 8. Histograma y Box Plot de datos F.
Quantile-Quantile Plot of F (0.1 mg/L) (Tare 1 con Statistica 10v*53c)
Distribution: Normal
F (0.1 mg/L) = 0.7454+0.8237*x
-3 -2 -1 0 1 2 3
Theoretical Quantile
0.01 0.05 0.25 0.50 0.75 0.90 0.99
-2
0
2
4
6
8
10
12
Obs
erve
d V
alue
Figura 9. Q-Q Plot de datos F. Ajuste lineal.
Tarea 1. AED
______________________________________________________________________
12
Análogo al caso anterior, al eliminar el valor atípico y graficar el histograma de los
restantes 52 datos, se obtiene una distribución de frecuencias bastante más homogénea
(figura 10). Se conserva la simetría positiva, por lo cual la media continúa siendo superior
que la mediana. La curtosis en este caso se hace planicurtica. El diagrama de Box Plot
refleja mayor paridad entre el grupo de datos, ampliándose el intervalo intercuartil. A
pesar de que aun aparece un valor atípico, la magnitud de éste es muy inferior a la del
discriminado. En la tabla adjunta a la figura 10 se muestran todos los valores estadísticos
de la variable F excluyendo el valor atípico principal.
La correspondiente grafica Q-Q muestra una mayor variabilidad de los residuos en escala
lineal (figura 11). Esto se debe precisamente a la mayor dispersión de los datos. Al realizar
pruebas de ajuste en la escala se observó que al tomar una escala exponencial en el eje X
mejoraba la aproximación lineal del grafico Q-Q (figura 12).
Histograma de Fluoruro Sin Outlier (Tare 1 con Statistica)
-0.4 0.0 0.4 0.8 1.2 1.6 2.0 2.4
F =0.1 (mg/L)
0
2
4
6
8
10
12
14
No
of o
bs
Box Plot (Tare 1 con Statistica)
Median = 0.42 25%-75% = (0.22, 0.855) Non-Outlier Range = (0, 1.45) Outliers
-0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4
F =0.1 (mg/L)
Histograma de Fluoruro Sin Outlier (Tare 1 con Statistica)
-0.4 0.0 0.4 0.8 1.2 1.6 2.0 2.4
F =0.1 (mg/L)
0
2
4
6
8
10
12
14
No
of o
bs
Box Plot (Tare 1 con Statistica)
Median = 0.42 25%-75% = (0.22, 0.855) Non-Outlier Range = (0, 1.45) Outliers
-0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4
F =0.1 (mg/L)
0.85503er Cuartil
0.22001er Cuartil
52Cuenta
29.7100Suma
2.2000Máximo
0.0000Mínimo
2.2000Rango
1.2212Simetría
1.8336Curtosis
0.2076Varianza de la muestra
0.4557Desviación estándar
0.7100Moda
0.4200Mediana
0.0632Error estándar
0.5713Media
ValoresEstadísticas F
(sin Out)
0.85503er Cuartil
0.22001er Cuartil
52Cuenta
29.7100Suma
2.2000Máximo
0.0000Mínimo
2.2000Rango
1.2212Simetría
1.8336Curtosis
0.2076Varianza de la muestra
0.4557Desviación estándar
0.7100Moda
0.4200Mediana
0.0632Error estándar
0.5713Media
ValoresEstadísticas F
(sin Out)
Figura 10. Histograma y Box Plot de datos F (sin Outlier).
Tarea 1. AED
______________________________________________________________________
13
Quantile-Quantile Plot of F Sin Outlier (0.1 mg/L) (Tare 1 con Statistica)
Distribution: Normal
-3 -2 -1 0 1 2 3
Theoretical Quantile
0.01 0.05 0.25 0.50 0.75 0.90 0.99
-0.6
-0.4
-0.2
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
2.4
Obs
erve
d V
alue
Figura 11. Q-Q Plot de datos F (sin Outlier). Ajuste lineal.
Quantile-Quantile Plot of F Sin Outlier(0.1 mg/L) (Tare 1 con Statistica)
Distribution: Exponential
F =0.1 (mg/L) = 0.1044+0.4743*x
-0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
Theoretical Quantile
0.01 0.50 0.75 0.90 0.95 0.99
-0.2
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
2.4
Obs
erve
d V
alue
Figura 12. Q-Q Plot de datos F (sin Outlier). Ajuste exponencial.
Tarea 1. AED
______________________________________________________________________
14
4. ESTADÍSTICA BIVARIADA El diagrama de dispersión de los datos de Litio en función de los de Fluoruro muestra una
tendencia proporcional (figura 13). De hecho al realizar un ajuste lineal el correspondiente
coeficiente de correlación es muy cercano a 1 (r=0.9684), lo cual implica una alta
linealidad. En la figura 13 se muestra además los histogramas de frecuencia y Box plots ya
vistos en el análisis univariado. La figura 14 sólo expresa una modificación de la figura 13,
convirtiendo las escalas lineales a logarítmicas para obtener una mejor visualización de la
nube de datos concentrada en el rango de valores pequeños.
En la figura 15 se presenta el diagrama de dispersión de los datos sin incluir el par de
valores atípicos. En este caso se aprecia una ligera disminución del coeficiente de
correlación (r=0.7740), debido a la eliminación del efecto de ajuste que producen los
valores atípicos. Sin embargo, aun la correlación lineal es considerada como buena.
Diagrama de Dispersión
Scatterplot with Histograms (Tare 1 con Statistica 10v*53c)
Scatterplot = -0.0648+8.7021*x
0
30
60
-0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4
LI (0.01 mg/L)
-2
0
2
4
6
8
10
12
F (
0.1
mg/
L)
0 30 60
F= -0.0648 + 8.7022*LIr2 = 0.9378; r = 0.9684, p = 0.0
Diagrama de Dispersión
Scatterplot with Histograms (Tare 1 con Statistica 10v*53c)
Scatterplot = -0.0648+8.7021*x
60
Diagrama de Dispersión
Scatterplot with Histograms (Tare 1 con Statistica 10v*53c)
Scatterplot = -0.0648+8.7021*x
0
30
60
-0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4
LI (0.01 mg/L)
-2
0
2
4
6
8
10
12
F (
0.1
mg/
L)
0 30 60
F= -0.0648 + 8.7022*LIr2 = 0.9378; r = 0.9684, p = 0.0
Diagrama de Dispersión
Scatterplot with Histograms (Tare 1 con Statistica 10v*53c)
Scatterplot = -0.0648+8.7021*x
60
Diagrama de Dispersión
Scatterplot with Histograms (Tare 1 con Statistica 10v*53c)
Scatterplot = -0.0648+8.7021*x
0
30
60
-0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4
LI (0.01 mg/L)
-2
0
2
4
6
8
10
12
F (
0.1
mg/
L)
0 30 60
F= -0.0648 + 8.7022*LIr2 = 0.9378; r = 0.9684, p = 0.0
Diagrama de Dispersión
Scatterplot with Histograms (Tare 1 con Statistica 10v*53c)
Scatterplot = -0.0648+8.7021*x
60
Figura 13. Diagrama de dispersión F vs. LI.
Tarea 1. AED
______________________________________________________________________
15
F vs. LI (Escala Logarítmica)
F = 8.7022 LI - 0.0648
R2 = 0.9378 R = 0.9684
0.01
0.10
1.00
10.00
100.00
0.010 0.100 1.000 10.000
LI (0.10 mg/L)
F (0.
1 m
g/L)
Figura 14. Dispersión F vs. LI. Escalas logarítmicas.
Figura 15. Diagrama de dispersión F vs. LI (sin outlier).
Tarea 1. AED
______________________________________________________________________
16
5. CONCLUSIONES Se realizó el análisis exploratorio de datos de Litio y Fluoruro. Los valores presentados en
este estudio corresponden a pozos que incluyen diferentes familias o facies, localizadas en
subcuencas hidrológicas adyacentes; las cuales poseen características que las hacen
diferenciables. Al respecto, vale destacar que los valores atípicos estudiados corresponden
a un manantial de origen volcánico.
La presencia de dicho par de valores atípicos influye de manera importante en el
comportamiento de los datos; por lo que los cálculos de los estimadores estadísticos no
presentan distribuciones normales; sin embargo, el estudio completo de los datos
incluyendo dichos valores, evidencia un comportamiento de proporcionalidad entre los
iones F y Li.