TEMA 5 TRATAMIENTO DE DATOS Y GRÁFICOS · Ciclo Formativo Laboratorio de Análisis y Control de...

TRATAMIENTO DATOS Y GRÁFICOS

GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 1 de 50

Ensayos físico-químicos

TEMA 5

TRATAMIENTO DE DATOS EXPERIMENTALES. GRÁFICOS

- INTERVALO DE CONFIANZA (t STUDENT)

- TRATAMIENTO DE PEQUEÑAS SERIES DE DATOS.

DESCARTE DATOS SOSPECHOSOS.

- AJUSTE DE ECUACIONES A DATOS

EXPERIMENTALES

- GRÁFICOS

Ciclo Formativo Laboratorio de Análisis

y Control de Calidad

INTERVALO DE CONFIANZA

1. INTERVALO DE CONFIANZA:

Un resultado analítico y, en general, cualquier resultado de una medida, se presenta

mediante sus límites de error o tolerancias, que suele ser el nombre que se aplica en otras

disciplinas de la industria al mismo concepto. En esta actividad veremos cómo los resultados

analíticos se cuantifican, cómo se expresan y cómo se acompañan de sus correspondientes límites

de error.

Imaginemos que un boletín de análisis nos muestra que la concentración molar calculada

para una determinada solución corresponde a:

c = 0,100 ± 0,002 mol/L

Observamos que la expresión anterior consta del valor más probable (usualmente el valor

medio de una serie de determinaciones) y de una determinada cantidad que ha sido evaluada en

relación a la seguridad con la que queremos mostrar el valor de la concentración. Cuando aumenta

esta cantidad, aumenta la seguridad de que el rango de valores presentados incluya al valor cierto.

En este caso, asumimos que:

0,100 es el valor más probable, situado en el medio del intervalo presentado

0,098 = 0,100 - 0,002 es el valor mínimo incluido en el intervalo

0,102 = 0,100 + 0,002 es el valor máximo incluido en el intervalo

Ahora, mostraremos las ideas anteriores utilizando un lenguaje más riguroso.

1.1. Definiciones:

Llamaremos intervalo de confianza (IC) al rango de valores que proviene de sumar y

restar a la media aritmética (xmed) una cantidad determinada, Δ (intervalo de incertidumbre), para

definir un margen dentro del cual se pueda encontrar el valor real μ, con una probabilidad que

previamente hemos establecido.

Xmed ± Δ

Los valores extremos (superior e inferior) de este intervalo se denominan límites de

confianza, donde:

Xmed – Δ (corresponde al límite de confianza inferior)

Xmed + Δ (corresponde al límite de confianza superior)

La amplitud del intervalo depende en gran medida del nivel de probabilidad fijado. Si

establecemos una probabilidad alta de que el valor real esté incluido, el intervalo de confianza será

grande. Si por el contrario establecemos una probabilidad baja, el intervalo será más pequeño.

Generalmente, el valor más utilizado como nivel de confianza suele ser del 95% (admitimos

un 5% de probabilidad de que el valor real no se encuentre dentro del intervalo calculado). Esto

proporciona un valor de referencia aceptable en la mayoría de las aplicaciones analíticas y supone

un caso intermedio entre mantener una buena seguridad en la expresión de los resultados y

obtener, al mismo tiempo, un intervalo de confianza no excesivamente grande. En algunos casos

más rigurosos se pueden utilizar como valores de probabilidad los de: 99; 99,9 e incluso 99,99%

Los intervalos de confianza se calculan de acuerdo al valor de la desviación estándar y con la

ayuda de las tablas de probabilidad (indicando para qué probabilidad se han obtenido). Es por esto

que, tanto en los valores analíticos como en las encuestas públicas, sus autores están obligados a

indicar con qué probabilidad se está trabajando.

Por tanto, la expresión c = 0,100 M ± 0,002 puede corresponder tanto a una serie de medidas

de baja o de alta calidad, ya qué no se trata de la misma calidad, por ejemplo, si se utiliza para una

probabilidad del 80% o el 99,99%.

1.2. Intervalos de incertidumbre y probabilidad

Los intervalos de incertidumbre se pueden calcular, en relación con la probabilidad, de la

siguiente forma: N

st ⋅±=∆

Donde: t = es la llamada “t” de Student

s = desviación estándar

N = número de datos

El valor de “t” se utiliza tanto en cálculos estadísticos como en la evaluación de la

diferencia de exactitud de dos series.

El nombre, proviene del científico W.S. Gosset, que introdujo este término en 1908,

firmando con el seudónimo de Student. El númro t se puede obtener de dos formas:

A) OBTENCIÓN DE “t” CON FUNCIONES MATEMÁTICAS:

Se utilizan funciones como las siguientes, donde n indica los grados de libertad:

227,2798,0592,1643,1

nnnt +++=

1676,82161,088062,29477,1

nnnt +++=

B) OBTENCIÓN DE “t” CON TABLAS

Suele ser la forma más habitual, donde t se encuentra para un nivel de confianza y un número

de grados de libertad n determinados. En este caso, por tratarse de una única serie de datos: n = N - 1

Así, por ejemplo, las que se utilizan en la tabla siguiente:

Grados de libertad Valores de “t”

Probabilidad utilizada

n = (N – 1) 10 % 50 % 80 % 90 % 95 % 99 % 99,9 %

1 0,158 1,000 3,078 6,3137 12,7062 63,6567 636,619

2 0,142 0,816 1,886 2,9199 4,3026 9,9248 31,598

3 0,137 0,765 1,638 2,3533 3,1824 5,8409 12,941

4 0,134 0,741 1,533 2,1318 2,7764 4,6040 8,610

5 0,132 0,727 1,476 2,0150 2,5705 4,0231 6,859

6 0,131 0,718 1,440 1,9431 2,4469 3,7074 5,959

7 0,130 0,711 1,415 1,8945 2,3646 3,4994 5,405

8 0,130 0,706 1,397 1,8595 2,3060 3,3553 5,041

9 0,129 0,703 1,383 1,8331 2,2621 3,2498 4,781

10 0,129 0,700 1,372 1,8124 2,2281 3,1692 4,587

11 0,129 0,697 1,363 1,7958 2,2009 3,1058 4,437

12 0,128 0,695 1,356 1,7822 2,1788 3,0545 4,318

13 0,128 0,694 1,350 1,7709 2,1603 3,0122 4,221

14 0,128 0,692 1,345 1,7613 2,1447 2,9768 4,140

15 0,128 0,691 1,341 1,7530 2,1314 2,9467 4,073

20 0,127 0,687 1,325 1,7247 2,0859 2,8453 3,850

25 0,127 0,684 1,316 1,7081 2,0595 2,7874 3,725

30 0,127 0,683 1,310 1,6972 2,0422 2,7499 3,646

40 0,126 0,681 1,303 1,6840 2,0210 2,7040 3,551

60 0,126 0,679 1,296 1,6710 2,0000 2,6600 3,460

120 0,126 0,677 1,289 1,6580 1,9800 2,6170 3,373

∞ 0,126 0,674 1,282 1,6448 1,9599 2,5758 3,291

Observamos que el margen que define el intervalo de confianza disminuye con el número de

medidas, es decir, al aumentar el número de medidas, más pequeño es el valor del intervalo de

confianza.

Hay que tener en cuenta que una vez finalizado un análisis, los valores correspondientes a la

desviación estándar s y al número de datos N están fijados por la calidad del trabajo experimental; sin

embargo, el valor de t es inherente al rigor que pretendemos dar al tratamiento de los datos: somos

nosotros los que fijamos este nivel de exigencia en el resultado expresado, cuando elegimos con qué

probabilidad queremos que el valor real se encuentre dentro del intervalo de confianza.

En los métodos y en los Procedimientos Normalizados de Trabajo (PNT) deben figurar los

criterios estadísticos que deben aplicarse para poder realizar el tratamiento de los datos de forma

homogénea. De esta forma, además, se podrán realizar estudios comparativos y se podrán extraer

conclusiones sobre la bondad de estos datos.

En resumen, para disminuir el intervalo de confianza en un intervalo analítico podemos:

- Incrementar el número de datos, N, es decir, realizar un mayor número de análisis

- Incrementar la calidad de los datos (disminuir su dispersión, s, es decir aumentar su

precisión).

- Disminuir el límite de confianza en el tratamiento de los datos (reducir la probabilidad).

EJERCICIO 1:

Los datos siguientes corresponden a la concentración, en ppm, de monóxido de carbono contenidos en

los gases de combustión.

1,84 1,92 1,94 1,92 1,85 1,91

Datos: media 1,8966…; desviación estándar: 0,0413

Representar el resultado final con un intervalo de confianza del 95 %.

Solución ejercicio 1:

Buscaremos en la tabla el valor de “t” los distintos valores sabiendo que (N = 6; n = 5).

Para 95%

t 95 % (N = 6, n = 5) = 2,57

04,0...043,06

0413,057,2 ±≅±=⋅±=⋅±=∆N

st (con una cifra significativa).

μ = xmed ± Δ = 1,8966… ± 0,04 = 1,90 ± 0,0 = (1,86; 1,94)

EJERCICIO 2:

Se ha realizado un análisis de Fluoruros en 10 tubos de pasta dentífrica obteniendo los siguientes

resultados: media; xmed = 25,00 mg/l y desviación estándar; s = 0,10 mg/l

Expresar la concentración de fluoruros con los intervalos de confianza del 90 %; 95 % y 99 %.

Buscamos en las tablas el valor de t para 90%; 95% y 99%.

El valor de “n” será: n = N – 1 = 10 – 1 = 9

t (90%)

t (N = 10 y n = 9, probabilidad del 90%) = 1,8331

...057967,010

10,08331,1 =⋅=⋅±=∆N

Δ = 0,06 (una cifra significativa)

t (95%)

t (N = 10 y n = 9, probabilidad del 95 %) = 2,2621

07,0...070585,010

10,02621,2 ≅=⋅=⋅±=∆N

t (99%)

1,0..10276,010

10,02498,3 ≅=⋅=⋅±=∆N

El intervalo de confianza vendrá determinado por los valores:

t (90%) t (95%) t (99%)

μ = xmed ± Δ

μ = 25,00 ± 0,06

Los extremos de este intervalo:

Límite confianza superior: 25,00 + 0,06 = 25,06

Límite confianza inferior: 25,00 - 0,06 = 24,94

Por tanto, el valor real (μ), con un 90 % de probabilidad, estará incluido dentro del siguiente intervalo de confianza: (24,94; 25,06)

μ = xmed ± Δ

μ = 25,00 ± 0,08

Por tanto, el valor real (μ), con un 95 % de probabilidad, estará incluido dentro del siguiente intervalo de confianza: (24,93 ; 25,07)

μ = xmed ± Δ

μ = 25,0 ± 0,1

Por tanto, el valor real (μ), con un 99 % de probabilidad, estará incluido dentro del siguiente intervalo de confianza: (24,9 ; 25,1)

EJERCICIO 3:

Se han realizado 5 valoraciones ácido-base empleando KOH patrón 0,1000 N sobre alícuotas de 25,00 ml

de una disolución problema que contiene un ácido fuerte. Los valores consumidos son en ml:

23,80 23,85 23,80 23,70 23,75

Expresar la normalidad del ácido problema con su intervalo de confianza:

De: Va ∙ Na = Vb ∙ Nb deducimos: Na = Vb ∙ Nb / Va

Donde:

Nb = 0,1000 N

Va = 25,00 ml

Valoración Vb (mL) Na (eq/L)

1 23,80 0,0952

2 23,85 0,0954

3 23,80 0,0952

4 23,70 0,0948

5 23,75 0,0950

Calculando Na med 0,0912

s 2,280 ∙ 10-4

Calcularemos el intervalo de confianza con una probabilidad del 95 % buscando en la tabla:

Para n = 4; recordad que n = N – 1; para una única serie de datos.

t (N = 5 y n = 4, probabilidad del 95 %) = 2,7764 ≈ 2,78

⇒⋅±=⋅⋅±=⋅±=∆ −−

10835,25

10280,278,2

stΔ = ± 3∙10-4 eq/l (una cifra significativa).

El intervalo de confianza vendrá determinado por los valores incluidos dentro de él:

μ = xmed ± Δ

μ = 0,09512 ± 0,0002835…

μ = 0,0951 ± 0,0003 (con las cifras significativas correctas)

Los valores extremos de este intervalo (los límites de confianza serán):

Límite de confianza inferior: 0,0951 - 0,0003 = 0,0948

Límite de confianza superior: 0,0951 + 0,0003 = 0,0954

Por tanto, el valor real (μ), con un 95 % de probabilidad, estará incluido dentro del

siguiente intervalo de confianza: (0,0948; 0,0954).

Observamos como el tratamiento de los datos se ha efectuado sobre los resultados

finales (normalidades) y no sobre los datos experimentales (volúmenes consumidos).

EJERCICIO 4:

Una analítica nos ha proporcionado los siguientes resultados:

23,45 23,52 23,47 23,50 23,47 23,50

Se pide el intervalo de confianza del resultado para t (80%) y (95%).

Efectuando las operaciones oportunas obtenemos los siguientes valores para los valores de la

media y de la desviación:

xmed = 23,485 s = 0,0258843

Para n = 5; recordad que n = N – 1; para una única serie de datos.

t (80%)

t (N = 6 y n = 5, probabilidad del 80%) = 1,476

02,001559,06

0258843,0476,1 ±≅±=⋅±=⋅±=∆N

st(una cifra significativa).

t (95%)

03,0027,06

0258843,05705,2 ±≅±=⋅±=⋅±=∆N

st (una cifra significativa).

El intervalo de confianza vendrá determinado por los valores:

t (80%) t (95%)

μ = xmed ± Δ

μ = 23,485 ± 0,01559

μ = 23,49 ± 0,02 (con sus cifras correctas)

Los valores extremos de este intervalo:

μ = xmed ± Δ

μ = 23,485 ± 0,027

μ = 23,49 ± 0,03 (con sus cifras correctas)

Los valores extremos de este intervalo:

EJERCICIO 5:

Una serie de analíticas realizadas sobre la concentración de Cr6+ en un agua residual de origen industrial

ha proporcionado los siguientes valores (en ppm):

0,25 0,27 0,22 0,29 0,23

Datos: media 0,252; desviación estándar: 0,028636

Representar el resultado final con un intervalo de confianza del 90, 95 y 99 %.

Buscaremos en la tabla los distintos valores de “t” sabiendo que (N = 5; n = 4).

Para 90 %

t 90 % (N = 5, n = 4) = 2,13

03,002728,05

028636,013,2 ±≅±=⋅±=⋅±=∆N

μ = xmed ± Δ = 0,252 ± 0,03 = 0,25 ± 0,03 = (0,22 ; 0,28)

Para 95 %

t 95 % (N = 5, n = 4) = 2,78

04,003560,05

028636,078,2 ±≅±=⋅±=⋅±=∆N

μ = xmed ± Δ = 0,252 ± 0,04 = 0,25 ± 0,04 = (0,21; 0,29)

Para 99 %

t 99 % (N = 5, n = 4) = 4,60

06,00589,05

028636,060,4 ±≅±=⋅±=⋅±=∆N

μ = xmed ± Δ = 0,252 ± 0,06 = 0,25 ± 0,06 = (0,19; 0,31)

1.3.- Observaciones sobre el uso de “t”.

a) Si se trabaja con una baja probabilidad, el valor de t es muy pequeño, y en consecuencia su intervalo

de confianza será pequeño.

Por ejemplo, si el intervalo es de ± 0,002 y se corresponde a un cálculo realizado con dos medidas y

el 80 % de probabilidad, tendríamos que, para el cálculo con un 99 % de probabilidad, el intervalo

sería aproximadamente unas 20 veces más grande y pasaría a ser de ± 0,040.

b) El valor de t siempre es superior a 1, para valores iguales o superiores a una probabilidad del 80 %.

En cambio, t es igual o inferior a 1 para probabilidades iguales o inferiores al 50 %.

Para la mayoría de los resultados químicos la probabilidad a utilizar suele ser superior al 80 % y, tal

como se ha mencionado antes, el valor de compromiso más habitual es del 95%. Este nivel de

probabilidad será el que utilizaremos si no se indica lo contrario.

c) El valor estadístico de t depende del número de análisis efectuados; si aumentamos N, entonces t

disminuye (y al contrario, si disminuimos N, t aumentará).

d) A partir de un determinado número de análisis, el valor de t fluctúa poco.

Por ejemplo para una probabilidad del 80 % si realizamos dos análisis, el valor de t es de 3,08, para

tres análisis, 1,89 (diferencia importante). Si incrementamos la cantidad de análisis, la diferencia se

va haciendo más pequeña hasta llegar a resultados próximos.

e) Para pocos datos analíticos (2 ó 3) los valores de t son grandes y comienzan a bajar a partir de 4. Así,

para 1, 2 ó 3 determinaciones puede ser crítico, mientras que hacer 5 o más no reducirá

significativamente el intervalo calculado

TRATAMIENTO DE PEQUEÑAS SERIES DE DATOS

DESCARTE DE DATOS SOSPECHOSOS

1. VALOR SOSPECHOSO.

Cuando se hacen diversas medidas de una magnitud, se obtienen valores de todo tipo y a veces,

uno o más son realmente discrepantes del resto (valores outliers). El problema que se nos presenta es

decidir si pueden pertenecer o no a la misma serie de resultados, es decir, si los podemos utilizar o por

el contrario los hemos de rechazar. La respuesta no es fácil, porque si rechazamos datos de forma

inadecuada podemos perder datos valiosos, además del tiempo y el coste de obtenerlos y, en cambio, si

los aceptamos, podemos hacer variar incorrectamente los resultados.

Para solucionar esta dificultad, existen toda una serie de criterios que nos facilitarán el tomar

una decisión, aquí se presentan los más comunes en el ámbito científico y técnico, para distribuciones

del tipo normal.

En todos los casos, se trata de proporcionar criterios matemáticos objetivos para determinar

qué datos se han de eliminar y cuáles se han de aceptar.

Por ejemplo, imaginemos una serie de datos como ésta:

26,9 26,3 26,2 26,5 26,1

Si la ordenamos de forma escalada, se observa que hay un valor más alejado del resto.

26,1 26,2 26,3 26,5 26,9

Para decidir si el valor se acepta o, por el contrario, se rechaza, tendremos que utilizar algún

criterio objetivo.

Si el criterio es muy estricto, quizás el valor 26,9 se suprima. En este caso, la serie quedará con

cuatro valores y, al volver a aplicar el mismo criterio sobre la nueva serie, igual resulta que hemos de

suprimir el 26,5.

Otras opciones podrían ser aceptar todos los datos y no considerar la posibilidad de rechazar

ninguno, o bien dejar la elección al criterio del analista.

Estas dos opciones son formas de resolver el problema pero también existen otras que

requieren la aplicación general de criterios matemáticos, habitualmente mediante la evaluación previa

de un determinado parámetro de dispersión, como la desviación media, el rango o la desviación

estándar.

La elección del criterio se realiza en función de la restricción que queremos aplicar a la

aceptación de los datos, la simplicidad del cálculo y la disponibilidad o no de tablas estadísticas

adecuadas. Vamos a comentar a continuación algunos de los criterios más empleados.

1.1. Criterio 2,5 d

Es el más estricto y sólo se utiliza para casos en los que estén en juego medidas de investigación,

como en un análisis farmacéutico y, en general, en todos aquellos casos en los que queremos ser muy

rigurosos con el tratamiento de los resultados.

Características:

APLICACIÓN. Para que se pueda aplicar este criterio se han de tener series de al menos 4 o más

resultados.

MÉTODO. No utilizar el resultado dudoso. Calcular la media aritmética y la desviación media del resto de

los datos ( x = media aritmética; dm = desviación media).

CRITERIO. Si el resultado sospechoso está dentro del intervalo x ± 2,5∙dm se acepta, de lo contrario se

rechaza.

En el caso de que sea rechazado, se ha de repetir la operación hasta que todos los valores sean

aceptados.

Reorganizamos la tabla sin tener en cuenta el resultado sospechoso.

Datos xi - x

26,1 0,175

26,2 0,075

26,3 0,025

26,5 0,225

Media Desv. media

26,3 0,125

En nuestro caso tendremos la tabla con los resultados de x = 26,275 y de dm = 0,125

Aplicando el criterio “2,5d”:

x ± 2,5∙dm

26,275 ± (2,5 ∙ 0,125) = 26,275 ± 0,3125

Redondeando = 26,3 ± 0,3 (con las cifras significativas correctas.

Con lo cual el intervalo válido sería: (26,0; 26,6)

Mínimo = 26,0 y máximo = 26,6

El dato sería rechazado, ya que 26,9 no está dentro de este intervalo.

1.2. Criterio 4d

Es muy utilizado para el tratamiento de datos con criterios rigurosos, pero no extremos.

Características:

APLICACIÓN. Para que se pueda aplicar este criterio se han de tener series de al menos 4 o más

resultados.

MÉTODO. No utilizar el resultado dudoso. Calcular la media aritmética y la desviación media del resto de

los datos ( x = media aritmética; dm = desviación media).

CRITERIO: Si el resultado es sospechoso está dentro del intervalo x ± 4∙dm se acepta, de lo contrario se

rechaza.

Este criterio, por tanto, ya abre un poco más el margen de aceptación para un resultado sospechoso. Es

frecuente encontrarse con una serie estadística donde se desprecien uno o diversos valores al aplicar el

criterio 2,5 d y, en cambio, puedan ser aceptados con el criterio 4d.

Siguiendo el mismo criterio que en el caso anterior tendríamos:

Datos xi - x

26,1 0,175

26,2 0,075

26,3 0,025

26,5 0,225

Media Desv. media

26,3 0,125

En nuestro caso tendremos la tabla con los resultados de x = 26,275 y de dm = 0,125

Aplicando el criterio “4d”:

x ± 4∙dm

26,275 ± (4 x 0,125) = 26,275 ± 0,5

Redondeando = 26,3 ± 0,5

Con lo cual el intervalo válido sería: (25,8; 26,8)

Mínimo = 25,8 y máximo = 26,8

1.3. Criterio Q de Dixon.

Es uno de los criterios más utilizados, aunque es menos restrictivo que los anteriores.

Características:

APLICACIÓN. Aplicable a una serie analítica con 3 o más valores. Este criterio presenta un cálculo más

sencillo pero requiere la presencia de la tabla estadística correspondiente. Un problema que resulta de

su aplicación para series muy reducidas (3 ó 4 valores) es que acepta muchos valores dudosos. En estos

casos el valor de Q es muy grande y se ha de ir con cuidado.

MÉTODO: Se trata de realizar el cociente de esta forma:

CRITERIO: Si el resultado Q, correspondiente al valor sospechoso, se más grande que el que se

encuentra en la tabla, se rechaza. En caso contrario, se acepta.

Volvamos a considerar el ejemplo anterior:

• Primero se ha de ordenar la serie mayor menor (o viceversa): 26,9; 26,5; 26,3; 26,2 26,1.

• El valor sospechoso es el 26,9 porque está separado del resto de valores.

• El más cercano a él es el 26,5.

• El rango es la diferencia entre los extremos. Entonces será: 26,9 - 26,1 = 0,8.

• El valor de Q obtenido con la fórmula anterior es:

5,08,04,0

1,269,26

5,269,26==

−−

• A continuación, se selecciona el valor de Q correspondiente a la tabla del criterio, de la cual

presentamos una versión reducida (Q 90%) en la figura siguiente:

• Si el valor encontrado es más grande que el que marca la tabla, podemos rechazar el valor

sospechoso asegurando con un mínimo del 90% de probabilidad de que este valor no pertenece

a la serie estadística. Si el valor obtenido es igual o menor al de la tabla, se acepta.

• En nuestro caso, tendremos que, para 5 valores, “Q” ha de ser de 0,64, y como 0,5 es más

pequeño que dicho valor, se acepta como integrante de la serie el valor 26,9.

Número medidas N 3 4 5 6 7 8 9 10

Valor Q 0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41

Diferencia entre el valor sospechoso y el más cercano a él Q = Rango

1.4. Criterio R de Grubbs.

El criterio R de Grubbs introduce criterios de probabilidad y grados de libertad para definir un intervalo

que permita rechazar los datos sospechosos que estén por exceso o por defecto.

Características:

APLICACIÓN. Aplicable a una serie analítica con 3 o más valores. Este criterio es más habitual en el

estudio de las series estadísticas, y no tanto en el estudio de series simples.

MÉTODO: para calcular x y s utilizaremos todos los datos, incluso el valor sospechoso.

s −=

Donde:

xs es el valor sospechoso, x la media aritmética y s la desviación estándar.

CRITERIO: si el resultado es sospechoso es más grande que el que aparece en la tabla R, para el valor de

probabilidad y los grados de libertad, se rechaza. En caso contrario se acepta.

Tabla de Grubbs parcial

N Probabilidad

90 % 95 % 99 %

3 1,148 1,153 1,155

4 1,425 1,463 1,492

5 1,602 1,672 1,749

6 1,729 1,882 1,944

7 1,828 1,938 2,097

8 1,909 2,023 2,221

9 1,977 2,110 2,323

10 2,036 2,176 2,410

11 2,088 2,234 2,485

12 2,134 2,285 2,550

13 2,175 2,331 2,607

14 2,213 2,371 2,659

15 2,247 2,409 2,705

16 2,279 2,443 2,747

17 2,309 2,475 2,785

18 2,335 2,504 2,821

19 2,361 2,532 2,854

20 2,385 2,557 2,884

Podemos observar la evolución del valor Q (90%) y de R (para 90%, 95% y 99% en función del

número de datos, N, tal como nos muestran las siguientes gráficas:

En la izquierda, variación de Q (90%) con N; en la derecha, variación del valor de R con N. Como

se observa en las gráficas, el valor de Q (90%) disminuye al aumentar el número de datos, al contario

que los valores de R. Además los valores de R se incrementan a medida que se incrementa el nivel de

probabilidad, aunque para series de datos con muy pocos valores, los valores de R no dependen tanto

de la probabilidad.

En nuestro ejercicio anterior realizamos los cálculos incluyendo el dato sospechoso:

datos Xi - Xmed (Xi - Xmed)2

26,1 0,3 0,09

26,2 0,2 0,04

26,3 0,1 0,01

26,5 0,1 0,01

26,9 0,5 0,25

Media 26,4 0,4

Desviación s = 0,3

Calculamos ahora el valor de R según la fórmula: 67,13,0

4,269,26==

Buscamos R en la tabla Rtabul (N = 5 ; 90 %) = 1,602; no se acepta porque Rcal > Rtab

Buscamos R en la tabla Rtabul (N = 5 ; 95 %) = 1,672; se acepta porque Rcal < Rtab

Buscamos R en la tabla Rtabul (N = 5 ; 99 %) = 1,749; se acepta porque Rcal < Rtab

1.5. Criterio 2s.

Es una herramienta muy útil para decidir si hay que aceptar o no posibles valores sospechosos.

Al igual que los criterios basados en definiciones de intervalos de aceptación alrededor de un

valor medio, como en el caso de los criterios 2,5d y 4d, presenta la ventaja de no necesitar tablas

estadísticas auxiliares en su aplicación.

Este criterio tiene realmente sentido cuando se aplica en series donde el número de datos es

muy importante, donde pueda asumirse sin un riesgo excesivamente grande que la distribución de los

datos corresponde a una distribución normal o se aproxima mucho a ella. Bajo esta hipótesis, el

intervalo fijado alrededor del valor medio y el ± 2s correspondería a una probabilidad del 95 %, tal como

ya se ha visto en temas anteriores.

El criterio 2s presenta, respecto de los criterios basados en el cálculo de la desviación media, la

ventaja de poder ser empleado con más comodidad, porque el cálculo de la desviación estándar resulta

prácticamente inmediato cuando utilizamos una calculadora científica o un programa informático.

Características:

APLICACIÓN. Para 4 valores o más. Será tanto más eficaz cuantos más valores experimentales tenga la

serie. Pero es necesario, en todos los casos, que los datos tiendan a distribuirse normalmente.

MÉTODO: Para el cálculo no se ha de utilizar el valor que consideremos sospechoso. Con el resto de los

valores calcularemos la media aritmética y la desviación estándar.

CRITERIO: Si el resultado sospechoso está dentro del intervalo: sx 2± se acepta, de lo contrario se

rechaza. En el caso de que el valor sospechoso coincida con uno de los límites del intervalo calculado, se

aceptará.

datos Xi - Xmed (Xi - Xmed)2

26,1 0,175 0,030625

26,2 0,075 0,005625

26,3 0,025 0,000625

26,5 0,225 0,050625

Media 26,275 ≈ 26,3

Desviación s = 0,1708 ≈ 0,2

En nuestro caso tendremos la tabla con los resultados de x = 26,3 y de s = 0,2

Aplicando el criterio “2s”: x ± 2s; 26,3 ± (2 ∙ 0,2) = 26,3 ± 0,4

Redondeando = 26,3 ± 0,4; Intervalo válido: (25,9 – 26,7)

1.6. Resumen:

Se presenta a continuación una aplicación de lo que se ha visto en las en las páginas anteriores,

referidas al análisis de los datos. Se muestra el tratamiento general que debería seguir una serie de

datos experimentales para llegar a la presentación del resultado final. Estas etapas no son las únicas que

se pueden realizar y sólo se presentan como caso genérico.

Cada procedimiento normalizado de trabajo con datos experimentales ha de incluir el

tratamiento detallado de los datos obtenidos.

En el caso de series con pocos datos pueden obviarse las primeras etapas a y b.

a) Ordenar los datos con sus cifras significativas. Efectuar el recuento de frecuencias.

b) Analizar la distribución a partir de:

• La representación de su histograma

• La clasificación de la distribución (grado de normalidad, modalidad, etc.)

• La selección de los posibles valores sospechosos

c) Elegir el criterio para aceptar o rechazar los valores sospechosos:

La opción más habitual suele ser el criterio Q. Puede emplearse cualquier otro si así lo

determina el procedimiento normalizado de trabajo o bien el rigor que se exige al tratamiento

de los datos. Sea cual sea el criterio seleccionado, se recomienda no dejar sólo en manos de la

estadística la decisión sobre la aceptación de resultados.

Recordemos que, en el caso de encontramos ante errores sistemáticos, estos tratamientos

matemáticos pierden su validez y, entonces, la forma de actuar más conveniente debería

consistir en la obtención de una nueva serie de datos, previa resolución de los errores

comentados.

d) Calcular, a partir de los datos aceptados, la media aritmética, la desviación estándar y la desviación

estándar relativa %

e) Escoger el nivel de confianza.

El intervalo de confianza más habitual es el calculado a partir de un nivel de confianza de 95%,

pero se puede emplear cualquier otro si así lo determina el procedimiento normalizado de

trabajo o bien el rigor que se exige al tratamiento de los datos.

f) Calcular el intervalo de confianza correspondiente.

g) Expresar el resultado final con su intervalo y con el número de cifras adecuadas.

Los procedimientos normalizados de trabajo deben hacer referencia tanto al tratamiento de los

datos como a los criterios a aplicar para poder aceptar o rechazar los posibles valores sospechosos.

EJERCICIO 1:

Una analítica nos ha proporcionado los siguientes resultados:

23,45 23,52 23,34 23,47 23,50 23,47 23,50

Se pide:

Hacer su estudio estadístico con la utilización de los criterios habituales: criterio Q (90%) para la

selección de los posibles valores sospechosos y t (95%) para la expresión del resultado final.

A pesar de tratarse de una pequeña serie de datos y las etapas a y b no son necesarias, también las

presentamos como ejemplo.

Etapas a y b.

Valor Frecuencia

23,34 1

23,45 1

23,47 2

23,50 2

23,52 1

23,30 23,35 23,40 23,45 23,50 23,55

VALORES

De forma visual se comprueba la distribución de los valores y como el valor 23,34 resulta ser un

valor sospechoso.

Etapa c:

Aplicamos el criterio Q (90%) del valor sospechoso.

Qcalculado = (|23,34 – 23,45|)/(|23,52 – 23,34|) = 0,61

Valor Q 0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41

El resultado es 0,61 y lo comparamos con el valor de Q (90%; N = 7) de la tabla que es Qtabulado = 0,51

Como el Qcalculado es más grande que el Qtabulado eso significa que se rechaza el valor 23,34.

Una vez rechazado el valor 23,34 los siguientes valores más extremos de la serie son por igual los de

23,45 y 23,52 por lo que investigamos cada uno de ellos y aplicamos el juicio que resulte sobre los dos:

Qcalculado = (|23,45 – 23,47|)/(|23,52 – 23,45|) = 0,28

Q (90%; N = 6) de la tabla que es Qtabulado = 0,56

Qtabulado = 0,56

Esta claro que Qcalculado es más pequeño que el Qtabulado, eso quiere decir que se acepta el valor 23,45.

Los valores aceptados de la serie, con los que continuamos el tratamiento estadístico, son:

23,52 23,34 23,47 23,50 23,47 23,50

Etapa d:

Si efectuamos las operaciones oportunas obtenemos:

485,23=x s = 0,0258843 %st (RSD) = 0,11%

Etapas e y f:

t(95% y N = 6, n = 5) = 2,571

03,0027,06

0258843,0571,2 ±≅±=⋅±=⋅±=∆N

Etapa g:

El resultado es: 23,49 ± 0,03

μ = xmed ± Δ = 23,49 ± 0,03 = (23,46; 23,52)

Hay que recordar los criterios en cuanto al número de cifras significativas y los criterios de redondeo.

Fijémonos que el valor medio y el intervalo de confianza están expresados con la misma precisión.

EJERCICIO 2:

Se ha realizado una determinación del porcentaje en peso de un ácido orgánico en una muestra y hemos

obtenido los siguientes resultados:

30,8 31,6 33,1 37,2 29,4

Aplicando los criterios 2,5d; 4d y Q investigar si alguno de los valores se puede rechazar.

Ordenamos la serie:

29,4 30,8 31,6 33,1 37,2

El valor que se observa más alejado es el 37,2. Por lo tanto aplicaremos los distintos criterios:

a) Criterio 2,5d

Calculamos la media aritmética y la desviación media sin contar con el sospechoso:

Media = 124,9/4 = 31,225

Desviación media = 1,125

Calculamos el valor xmed ± 2,5 dm = 31,225 ± 2,5 ∙ 1,125 = 31,225 ± 2,8125

El intervalo será por tanto (28,4125; 34,0375) = (28,4; 34,0)

El valor 37,2 es más alto que el valor 34,0 calculado, por lo que SE DESCARTA.

b) Criterio 4d

Operando como en el caso anterior

Calculamos el valor xmed ± 4 dm = 31,225 ± 4 ∙ 1,125 = 31,225 ± 4,5

El intervalo será por tanto (26,725 ; 35,725)

El valor 37,02 es más alto que el valor 35,725 calculado, por lo que SE DESCARTA.

c) Criterio Q de Dixon:

Q = (diferencia entre valor sospechoso – valor más cercano a él) / rango

(Q para 37,2) = (37,2 – 33,1) / (37,2 – 29,4) = 0,5256

Miramos en la tabla para Q (90%, N = 5) = 0,64

Valor Q 0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41

Qcal < Qtab � NO SE DESCARTA EL DATO

EJERCICIO 3:

En la normalización de una solución de hidróxido de sodio las tres medidas de normalidad han sido:

0,1023 0,1082 0,1100

Para un cuarto valor y aplicando el criterio Q (90%) se pide:

a) ¿Cuál puede ser el valor máximo aceptable?

b) ¿Cuál puede ser el valor mínimo aceptable?

a) Aplicamos el criterio Q:

Miramos en la tabla para N = 4, obtenemos un valor de Q = 0,76.

Valor Q 0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41

76,01023,0

1100,0

max =−−

diferenciaQ

Resolviendo xmax = 0,1344 N

Un valor más alto nos daría un valor de Qcal más alto que Qtab y tendría que rechazarse.

b) Aplicamos el criterio Q:

Miramos en la tabla para N = 4, obtenemos un valor de Q = 0,76.

Valor Q 0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41

76,01100,0

1023,0

min =−−

diferenciaQ

Resolviendo xmin = 0,0779

Un valor más bajo nos daría un valor de Qcal más alto que Qtab y tendría que rechazarse.

EJERCICIO 4:

En la determinación de la molaridad de una disolución se obtuvieron los siguientes resultados:

0,5027 0,5030 0,5024 0,5032 0,5026 0,5113

Datos: Con valor 0,5113. Media = 0,5042 M Desviación estándar = 3,4899∙10-4

Sin valor 0,5113. Media = 0,5028 M Desviación estándar = 3,1937∙10-4

a) Aplicando el criterio Q (90%), ¿podemos considerar correcto el valor 0,5113?

b) Expresar el valor final con su intervalo de confianza, al 95 %, con el número correcto de cifras

significativas.

a) Aplicamos el criterio Q:

91,05024,05113,0

5032,05113,0=

−−

==rango

diferenciaQcal

Miramos en la tabla para N = 6, obtenemos un valor de Q = 0,56

Valor Q 0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41

Qcal > Qtab � no podemos aceptar el valor 0,5113 y no se introducirá en los cálculos.

b) Para 95 %. Utilizamos la media y desviación estándar sin contar con el sospechoso.

t 95 % (N = 5, n = 4) = 2,7764

0004,01096,35

101917,37764,2 44

≅⋅±=⋅⋅±=⋅±=∆ −−

st(con una cifra significativa).

μ = xmed ± Δ = 0,5028 ± 0,0004 = (0,5024; 0,5032).

EJERCICIO 5:

Para la siguiente serie de datos:

10 15 20 50 70

Datos: (con todos los valores). Media = 33 Desviación estándar = 25,88

Datos: (sin valor 70). Media = 23,75 Desviación media = 13,125 Desviación estándar = 17,97.

Mostrar los valores que se rechazarán al aplicar cada uno de los procedimientos de aceptación:

a) Criterio Q (90 %).

b) Criterio 2,5 d

c) Criterio 4d

d) Criterio R (95 %).

e) Criterio 2s

a) Criterio Q (90 %).

Miramos en la tabla para N = 5, obtenemos un valor de Q = 0,64

Valor Q 0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41

4,01070

−−

==rango

diferenciaQcal

Qcal < Qtab � aceptamos el valor 70.

b) Criterio2,5d. Sin sospechoso.

Calculamos el valor xmed ± 2,5 dm = 23,75 ± 2,5 ∙ 13,125 = 23,75 ± 32,8125 = 23,75 ± 32,81

El intervalo será por tanto (- 9,06; 56,56)

El valor 70 es más alto que el valor 56,56 calculado, por lo que SE DESCARTA.

c) Criterio 4d. Sin sospechoso.

Calculamos el valor xmed ± 4 dm = 23,75 ± 4 ∙ 13,125 = 23,75 ± 52,50

El valor 70 es más bajo que el valor 76,25 calculado, por lo que SE ACEPTA.

d) Criterio R (95 %). Con sospechoso.

Hay que comentar que este criterio solo sería aplicable a series que tienen una distribución normal,

pero utilizaremos esta serie como ejemplo de cálculo.

Con los datos de la desviación estándar con todos los datos aplicamos la fórmula:

429,188,25

En la tabla para R (95 %) y N = 5; Rtab = 1,672…

Como Rcal < Rtab ; se acepta el datos sospechoso.

e) Criterio 2s. Sin sospechoso.

Tampoco sería aplicable este criterio al no ser una distribución normal. Lo haremos como ejemplo.

Calculamos el valor xmed ± 2 s = 23,75 ± 2 ∙ 17,97 = 23,75 ± 35,94

El valor 70 es más alto que el valor 59,69 calculado, por lo que SE DESCARTA.

AJUSTE DE ECUACIONES A DATOS EXPERIMENTALES

1. INTRODUCCIÓN.

Durante la realización de una experiencia, se van recogiendo los datos que corresponden a los

valores que toma una variable a lo largo de un intervalo de trabajo. La representación de estos datos

constituye lo que se denomina genéricamente una nube de puntos. Muchas veces, el estudio de estos

datos demuestra que su variación es lineal con respecto a una magnitud, es decir, la relación que

presentan puede ser descrita mediante una sencilla función del tipo:

y = mx + b

Donde m es la pendiente de la recta y b es la ordenada en el origen.

Por ejemplo:

- Las elongaciones de un muelle, que actúa como una balanza, varían con el peso que

soportan.

- Las alturas que alcanza un capilar de mercurio en un termómetro varían con la

temperatura que registran.

- La conductancia de una solución salina varía con su concentración.

Si se conoce el modelo matemático que siguen los datos y puede encontrarse la ecuación

matemática que los representa, el estudio de los pares de datos registrados debería responde a las

siguientes cuestiones:

- ¿Cuál es la calidad de ajuste de datos al modelo propuesto, cómo concuerdan?

- ¿Cuál es el error cometido al asumir el modelo?

- ¿Cuál es el grado de asociación entre variables, cuál es el grado de linealidad?

- ¿Cómo realizar correctamente predicciones, interpolando o extrapolando, respecto al

intervalo estudiado?

La mayoría de las veces nos encontramos con que los modelos a ajustar son lineales o

asimilables a ellos. Si no es así, puede limitarse el estudio de las variables a una zona lineal más reducida

o bien reformular los modelos para ajustar los datos a ecuaciones lineales.

El método matemático más utilizado para ajustar datos experimentales a un modelo lineal es el

denominado método de los mínimos cuadrados. Aporta muchas ventajas y es fácil aplicarlo ya que lo

suelen incorporar las calculadoras científicas más avanzadas y todos los programas informáticos de

tratamiento de datos y hojas de cálculo.

Existen otros métodos como el de la mediana simple, no tan potente ni conocido como el

anterior pero que, entre otras ventajas, resulta ser bastante insensible a la presencia de puntos

anómalos (sometidos a errores).

EJERCICIO 1.

La polarografía es una técnica instrumental que proporciona medidas de intensidad de

corriente, I, en función de la concentración de patrones conocidos. Una calibración del tensioactivo

MCA, utilizando esta técnica, proporcionó la siguiente información:

Polarografía

MCA (ppm)

0,0 45,5 90,9 167 231 286 333

(nA) 0 2 4 5,8 7,4 8,8 10,5

Se pide:

a) Hacer la gráfica de la concentración (abscisas) respecto a la intensidad (ordenadas). Dibujar

a ojo, la mejor recta que corresponda al conjunto de los puntos (algunos puntos podrán

quedar por debajo de ella y otros por encima).

b) A partir de la recta dibujada, determinar gráficamente qué concentración (ppm) habría que

esperar para una intensidad de 6,2 nA.

c) ¿Qué señal analítica (nA) correspondería a un patrón de MCA de 70 ppm.

d) Determinar las coordenadas de dos puntos suficientemente separados de la recta dibujada

y, a partir de éstos, la ecuación matemática de la recta. Repetir el cálculo de los apartados

anteriores utilizando ahora la ecuación matemática.

Recordar que la ecuación que pasa por dos puntos, 1 y 2 puede deducirse como sigue:

(y2 – y1) / (x2 – x1) = (y – y1) / (x – x1)

e) Comentar ambos métodos.

A) Dibujamos la gráfica y dibujamos la recta por aproximación.

B) Determinamos a partir de esta recta el valor para una señal de 6,2 nA (línea roja) obtenemos un

valor de MCA en ppm ≈ 190

C) Lo mismo para 70 ppm de MCA (línea azul) obtenemos una valor en nA ≈ 2,3

D) Seleccionamos los puntos 100 ppm y 300 ppm de MCA para obtener la fórmula de la recta con

los datos siguientes:

X1 = 100 ppm Y1 = 3,4

X = X ppm Y = Y

X2 = 300 ppm Y2 = 9,9

Con estos datos calculamos la ecuación de la recta según la fórmula:

(y2 – y1) / (x2 – x1) = (y – y1) / (x – x1)

(9,9 – 3,4) / (300 – 100) = (y – 3,4) / (x – 100)

Resolviendo:

y = 0,0325 x + 0,15

Calculamos ahora los datos anteriores con la fórmula hallada:

- Para el valor de y = 6,2 nA � x = 186

- Para el valor de x = 70 ppm � y = 2,4

E) Comentario sobre los resultados: Hemos obtenidos unos resultados similares gráficamente y

obteniendo de forma matemática la ecuación de la recta.

2. MÉTODO DE LOS MÍNIMOS CUADRADOS.

Como ya se ha comentado anteriormente, muchas determinaciones físicas o químicas se pueden

ajustar a una función del tipo lineal.

Durante el trabajo experimental, donde un determinado instrumento responde a una variable

que queremos estudiar, es conveniente recoger los datos a partir de una tabla de doble entrada del tipo

y y1 y2 y3 y4 y5 y6 …. yn

En la que:

x es la variable

y es el valor de la propiedad objeto de medida

A partir de esta tabla se trata de encontrar una función matemática, en nuestro caso de tipo

lineal, que pueda reproducir lo mejor posible a estos valores. Una de las formas de hacerlo es mediante

el método de los mínimos cuadrados.

Para verlo con más claridad, consideremos una representación gráfica como la siguiente:

Los puntos representan los datos en un sistema de coordenadas. A la izquierda, parece existir

una proporcionalidad entre las dos variables. A la derecha, no se observa una correlación importante

entre dichas variables.

2.1. Ecuaciones de ajuste.

El método de los mínimos cuadrados proporciona la ecuación de una recta que representa a los

datos experimentales, cumpliendo la hipótesis de hacer mínima la suma de los cuadrados residuales.

Se entiende por residual la distancia que hay entre el valor experimental y el proporcionado por

la ecuación de ajuste.

Residualx = xexperimental – xcalculada = Δx

Residualy = yexperimental – ycalculada = Δy

Nos centraremos en los valores residuales de “y” ya que es en ordenadas, por convenio, donde

se sitúan los valores obtenidos en las mediciones (señales analíticas). Si elevamos al cuadrado esta

última distancia para prescindir de si es positiva o negativa (es decir, si el valor experimental se

encuentra por encima o por debajo de la ecuación encontrada) y sumamos todos los residuales al

cuadrado anteriores obtendremos, como parámetro de la calidad del ajuste, la Suma de los Cuadrados

Residuales (SCR).

Supongamos que la recta que mejor cumple estos requisitos es la dibujada a continuación:

Ajuste de una recta a un conjunto de puntos experimentales. La diferencia entre los valores

experimentales y los proporcionados por el modelo se determina a partir de la residual

correspondiente.

Como vemos, existen puntos como “1” y “2” a los lados de la recta y otros que son puntos de la

misma recta, como el “3”. En todos los casos, podremos calcular las distancias Δx y Δy entre los puntos y

la recta de ecuación:

y = mx + b

La anterior recta no sabemos con certeza por dónde pasa, pero podemos imponer la condición

de que la suma de los cuadrados de todas las distancias sea el valor más pequeño posible.

Matemáticamente

SCR = ∑ [y – (b + mxi)]2

Esta función depende de los coeficientes b y m de la ecuación de la recta que, recordemos,

responde a la hipótesis formulada:

SCR = SCR (b, m)

Minimizando la expresión anterior, a partir de las derivadas parciales respectivas de la ecuación

respecto de m y b igualadas a cero y resolviendo el sistema para N pares de datos (x, y), puede

deducirse que:

∑ ∑∑ ∑ ∑

−⋅⋅−⋅

= 22 )(

yxyxNm

∑ ∑∑ ∑ ∑ ∑

−⋅⋅⋅−⋅

)( xxN

yxxxyb

Este cálculo se hace, habitualmente, de forma automática con la ayuda de una hoja de cálculo

como Excel o una calculadora. También se puede hacer por etapas, utilizando tablas como la siguiente:

Entre otras posibilidades, este método permite también determinar los intervalos de confianza

que aparecen alrededor de los parámetros calculados, utilidad interesante para la validación de

métodos analíticos.

y x x.y x2 y2 (b + mxi – yi)2

Sumatorios: ∑y ∑x ∑x.y ∑x2 ∑y2 ∑(b + mxi – yi)2

EJERCICIO 2.

La relación entre la altura y el peso de un grupo de 10 chicos, elegidos al azar fue:

Peso en Kg: 63 72 60 66 70 74 65 62 67 68

Altura en cm: 150 180 135 156 168 178 160 132 145 152

a) Gráfica de datos. Representar en el eje X el peso y en el eje Y las alturas.

b) Ajustar una recta por mínimos cuadrados a los datos de esta muestra.

c) Estimar la altura de una estudiante que pesa 63 Kg.

d) Estimar el peso de una estudiante que tiene 168 cm. de altura.

Se realizan los cálculos y se representan en forma de tabla:

2.2. Medida del grado de ajuste (r y r2).

La medida del grado de ajuste entre los datos originales y los previstos por la ecuación calculada

se puede evaluar de diferentes formas.

a) A partir del valor de SCR encontrado (definido anteriormente). La concordancia entre la recta

calculada y los datos aumentará a medida que el valor de SCR sea menor. No olvidemos que la recta

encontrada es, dentro de las posibles, la que tiene un valor de SCR menor.

b) A partir del valor del coeficiente de correlación, r, calculado en función de los datos iniciales.

})({})({ 2222∑ ∑ ∑ ∑

∑ ∑ ∑−⋅⋅−⋅

⋅−⋅⋅=

yyNxxN

yxyxNr

De forma alternativa, si suponemos que el denominador es diferente de cero:

∑ ∑

∑−⋅−

−⋅−=

22 )()(

rectarecta

Finalmente, si se prefiere, puede expresarse el coeficiente de relación en función de los valores

medios de x , y de y , así como de sus respectivas desviaciones estándares σx y σy:

rσσ ⋅

⋅−⋅

∑ )(

Tener en cuenta que los posibles valores de r están comprendidos en el intervalo:

0 ≤ │r│ ≤1

y que el signo, positivo o negativo, del coeficiente r coincide con el valor del signo de la pendiente m

deducida de la ecuación.

En los casos extremos:

│r│= 0, no hay ninguna asociación entre las variables

│r│= 1, total asociación entre las variables

Ahora bien, en el caso de que dispongamos de pocos datos, se pueden obtener valores cercanos

a 1 y esto, por si sólo, puede ser poco indicativo de la posible calidad de la ecuación. El caso extremo

aparece cuando tan solo tenemos dos parejas de datos (en este caso r = 1). Por el contrario, si tenemos

suficiente datos distribuidos de forma homogénea y el coeficiente de correlación se acerca al valor 1,

podremos afirmar que el valor de la asociación entre variables es muy elevado y, al mismo tiempo,

significativo.

En química analítica, durante el estudio de las calibraciones y la verificación de métodos dentro

de determinados intervalos, se suelen obtener linealidades muy buenas. A menudo se habla, entonces,

del número de nueves que presenta el coeficiente r encontrado y así es posible la calificación del ajuste

efectuado, tal y como muestra la tabla siguiente:

r Calidad del ajuste

0,9 a 0,99 Muy deficiente

0,99 a 0,999 Deficiente

0,999 a 0,9999 Bueno

0,9999 a inferior a 1 Muy bueno

1 Coincidencia absoluta

En muchas calculadoras y programas informáticos es usual encontrar como factor de correlación

el valor r2 (atención porque entonces el valor de r2 es inferior a r).

2.3. Ecuaciones de ajuste con utilización de un programa informático EXCEL.

Una manera más sencilla de realizar estos ejercicios es la utilización de la hoja de cálculo Excel

para la determinación de la recta y los valores de r2.

EJERCICIO AJUSTE UTILIZANDO LA HOJA DE CÁLCULO EXCEL.

Vamos a resolver el mismo ejercicio del principio del tema con la tabla siguiente:

ppm 0,0 45,5 90,9 167 231 286 333

nA 0 2 4 5,8 7,4 8,8 10,5

1º) Copiamos la tabla en excel:

2º) Seleccionamos las dos filas:

3º) Marcamos el asistente para gráficos:

4º) Abrimos el asistente de gráficos y seleccionamos el tipo de dispersión y pulsamos finalizar:

5º) Obtenemos un gráfico similar como el siguiente:

6º) Pulsamos con el botón derecho en cualquiera de los puntos de la gráfica y aparece el submenú que

se observa en la figura.

7º) Pulsamos en “Agregar línea de tendencia”. En este caso seleccionamos la tendencia lineal.

8º) En la pestaña de opciones marcamos: “Presentar ecuación en el gráfico” y “Presentar el valor R

cuadrado en el gráfico”

10º) Pulsamos aceptar y obtenemos la recta, la ecuación de la misma y el valor r2.

11º) Solo nos quedará dar el formato más adecuado y vistoso a nuestro gráfico.

EJERCICIO 3:

NOTA: este ejercicio utiliza otras letras para denominar la ordenada en el origen (b) a la que aquí llama n

y otras variaciones no significativas.

Partimos de los siguientes datos y su representación:

Buscamos la recta que mejor se ajusta a las N medidas:

Podríamos presentar los datos y resultados en una tabla como la siguiente:

Y con los parámetros obtenidos siguientes:

y = 0,935x + 0,366

AJUSTE DE ECUACIONES A DATOS EXPERIMENTALES

MÉTODO DE LA MEDIANA SIMPLE

1. INTRODUCCIÓN.

Este método fue desarrollado con la finalidad de que los posibles puntos anómalos, recogidos

durante el trabajo experimental (los que se apartan de la linealidad), no afectasen a la tendencia general

de los datos. Genéricamente, los métodos insensibles a la presencia de puntos anómalos se denominan

métodos robustos.

2. PROCEDIMIENTO DE CÁLCULO:

Seguiremos las etapas siguientes:

a) Ordenar los puntos obtenidos. Calcular la pendiente mi de cada punto con respecto a

todo el resto de puntos.

b) Ordenar las pendientes mi calculadas. Definir como pendiente de la recta de ajuste la

mediana de la serie anterior:

mMS = med (mi)

c) A partir de la pendiente encontrada, calcular todas las posibles ordenadas en el origen bi.

Definir como ordenada en el origen de la recta de ajuste la mediana de la serie anterior.

bMS = med (bi)

EJEMPLO 1:

Mostrar la ecuación resultante, por medio de la mediana simple, de los siguientes datos:

A B C D E F

X 0 2 4 6 8 10

Y 0,1 8,0 15,7 24,2 31,5 33,0

Solución:

a) Representación gráfica de los datos:

Si representamos los datos como puntos dentro de una cuadrícula (figura siguiente) los observamos

detenidamente, podremos percatarnos como el punto (10 ; 33,0) no sigue la tendencia general del

conjunto. Incluirlo en el procesamiento de los datos mediante el método de los mínimos cuadrados

modificaría de forma importante la ecuación calculada.

0 2 4 6 8 10 12

En el método de la mediana simple, que ahora estudiaremos, a pesar de incluir este punto en el

tratamiento, no se afectará a la ecuación final propuesta.

b) Cálculo de las pendientes:

Los cálculos de las respectivas pendientes los efectuaremos ordenadamente en una matriz que

contendrá tantas filas y columnas como puntos.

El problema de cálculo se simplifica si tenemos en cuenta los siguientes aspectos:

- No tiene sentido calcular la pendiente de un punto con respecto a sí mismo (diagonal de

la matriz)

- Tampoco tendría sentido calcular la pendiente entre dos puntos j, i, si ya ha sido

evaluada la correspondiente pendiente entre los puntos i, j, porque es la misma.

Eso nos lleva a rellenar únicamente la parte situada por encima de la diagonal de la matriz.

A B C D E F

A ---- 3,95 3,90 4,02 3,93 3,29

B ---- ---- 3,85 4,05 3,92 3,12

C ---- ---- ---- 4,25 3,95 2,88

D ---- ---- ---- ---- 3,65 2,20

E ---- ---- ---- ---- ---- 0,75

F ---- ---- ---- ---- ---- ----

El cálculo de la pendiente entre dos puntos i, j se efectúa como:

ijij xx

−−

= ; jiij mm =

Por ejemplo, la pendiente entre los puntos A y B corresponde a:

m (A, B) = (8,0 – 0,1) / (2 – 0) = 3,95

Se puede comprobar como para N puntos resultan (N2 – N) / 2 posibles pendientes. En nuestro caso, 15

valores.

(N2 – N) / 2 = (62 – 6) / 2 = 15

La posición de la mediana dentro de una serie ordenada de valores corresponde en general a: (N + 1) /

2, en nuestro caso, en la octava posición. Ordenando todos los valores de mayor a menor,

0,75 2,20 2,88 3,12 3,29 3,65 3,85 3,90 3,92 3,93 3,95 3,95 4,02 4,05 4,25

Es decir:

mMS = 3,90

c) Cálculo de la ordenada en el origen:

Las ordenadas en el origen se calculan teniendo en cuenta que:

y = mx + b b = y – mx

x y bMS = y – (3,90 ∙ x)

0 0,1 0,10

2 8,0 0,20

4 15,7 0,10

6 24,2 0,80

8 31,5 0,30

10 33,0 - 6

Una vez ordenados estos valores tenemos:

- 6 0,10 0,10 0,20 0,30 0,80

La mediana de la serie está situada en la posición (6 + 1) / 2 = 3,5

Debemos calcular la media aritmética entre el tercer y el cuarto valor:

- 6 0,10 0,10 0,20 0,30 0,80

bMS = (0,10 + 0,20) / 2 = 0,15

Ahora solo nos queda escribir la ecuación de la recta calculada por el método de la mediana simple:

y = 0,15 + 3,90 x

EJEMPLO 2:

Encontrar la ecuación de ajuste, por el método de los mínimos cuadrados, del ejercicio anterior

y comparar el resultado con el método de la mediana simple:

Respuesta:

Efectuamos la representación de la recta con y sin el punto anómalo.

y = 3,4786x + 1,3571

R2 = 0,9758

0 2 4 6 8 10 12

y = 3,95x + 0,1

R2 = 0,9996

0 1 2 3 4 5 6 7 8 9

Claramente podemos concluir que la mejor recta de ajuste es la segunda y que el punto

anómalo no puede ser incluido

El método de la mediana simple proporciona una ecuación semejante (¡NO IDÉNTICA!) al

método de los mínimos cuadrados sin tener en cuenta el efecto del punto anómalo.

y = 3,4786x + 1,3571

y = 3,9x + 0,15

0 2 4 6 8 10 12

MEDIANA SIMPLE MINIMOS CUADRADOS PUNTO ANÓMALO

EJERCICIO 1:

A partir de los siguientes datos mostrar la ecuación resultante por el método de MÍNIMOS CUADRADOS

y de MEDIANA SIMPLE.

A B C D E

X 10 20 40 60 80

Y 567 436 283 144 2

A 10 567

B 20 436

C 40 283

D 60 144

E 80 2

Representación gráfica:

Ajuste mínimos cuadrados con excel y fórmula:

Cálculo de cada una de las pendientes: ij

ijij xx

−−

A B C D E

B -13,10

C -9,47 -7,65

D -8,46 -7,30 -6,95

E -8,07 -7,23 -7,03 -7,10

Ordenamos las pendientes y buscamos la mediana. Al ser un número par de pendientes, calcularemos la

mediana como la media de los valores intermedios.

-13,10 1 -13,10 -9,47 2 -9,47 -8,46 3 -8,46 -8,07 4 -8,07 -7,65 5 -7,65

-7,48 -7,30 6 -7,30

-7,23 7 -7,23 -6,95 8 -7,10 -7,03 9 -7,03 -7,10 10 -6,95

Obtenemos el primer valor para nuestra ecuación:

y = - 7,48 x + b

Sustituimos y calculamos el valor de la ordenada en el origen para cada par de datos:

X Y b = y + 7,48 x

A 10 567 642

B 20 436 586

C 40 283 582

D 60 144 593

E 80 2 600

Ordenamos el valor de b y obtenemos la mediana:

642 1 642 586 2 600 582 3 593 593

593 4 586 600 5 582

Tenemos el valor de nuestra ecuación:

y = - 7,48 x + 593

Ahora para los valores de “x” recalculamos con nuestra ecuación:

X Y = -7,48 x + 593

A 10 518,2

B 20 443,4

C 40 293,8

D 60 144,2

E 80 -5,4

Representamos la nueva ecuación junto a la anterior y a la de ajuste por mínimos cuadrados

Podemos observar como ahora hemos evitado el efecto del punto anómalo.

EJERCICIO 2:

A partir de las determinaciones siguientes calcular por el método de MÍNIMOS CUADRADOS y de

MEDIANA SIMPLE.

A B C D E

X 1,0 1,5 2,0 2,5 3,0

Y 3,0 3,5 5,4 6,9 8,4

A 1,0 3,0

B 1,5 3,5

C 2,0 5,4

D 2,5 6,9

E 3,0 8,4

Representación gráfica:

Ajuste mínimos cuadrados con excel y fórmula:

Cálculo de cada una de las pendientes: ij

ijij xx

−−

A B C D E

A 1 2,4 2,6 2,7

3,8 3,4 3,3

Ordenamos las pendientes y buscamos la mediana. Al ser un número par de pendientes, calcularemos la

mediana como la media de los valores intermedios.

1 1 3,8 2,4 2 3,4 2,6 3 3,3 2,7 4 3 3,8 5 3

3 3,4 6 3

3,3 7 2,7 3 8 2,6 3 9 2,4 3 10 1

Obtenemos el primer valor para nuestra ecuación:

y = 3 x + b

Sustituimos y calculamos el valor de la ordenada en el origen para cada par de datos:

X Y b = y – 3 x

A 1,0 3,0 0

B 1,5 3,5 -1

C 2,0 5,4 -0,6

D 2,5 6,9 -0,6

E 3,0 8,4 -0,6

Ordenamos el valor de b y obtenemos la mediana:

0 1 0 - 1 2 -0,6 -0,6 3 -0,6 - 0,6

-0,6 4 -0,6 -0,6 5 -1

Tenemos el valor de nuestra ecuación:

y = 3 x – 0,6

Ahora para los valores de “x” recalculamos con nuestra ecuación:

x y = 3 x – 0,6

A 1,0 2,4

B 1,5 3,9

C 2,0 5,4

D 2,5 6,9

E 3,0 8,4

Representamos la nueva ecuación junto a la anterior y la de mínimos cuadrados.

Podemos observar como ahora hemos evitado el efecto del punto anómalo.

TEMA 5 TRATAMIENTO DE DATOS Y GRÁFICOS · Ciclo Formativo Laboratorio de Análisis y Control de...

Documents

Transcript of TEMA 5 TRATAMIENTO DE DATOS Y GRÁFICOS · Ciclo Formativo Laboratorio de Análisis y Control de...

EL SECTOR PRIMARIO DOCUMENTOS MAPAS GRÁFICOS DATOS ESTADISTICOS TEXTOS GEOGRÁFICOS

Presentación Profesional de Datos y Gráficos en PowerPoint ...€¦ · Histogramas Domina las reglas de diseño para crear gráficos claros y fáciles de ... Cómo enlazar gráficos

EVOLUCIÓN E INDICADORES - ipyme.org · evoluciÓn e indicadores datos y grÁficos nacionales datos y grÁficos autonÓmicos datos y grÁficos provinciales nº 15 febrero 2017

SÍNTOMAS, DATOS Y TRATAMIENTO

Cómo presentar gráficos y datos en Power Point sin aburrir

Tratamiento de los datos

EVOLUCIÓN E INDICADORESAbril 2011 . ESTADÍSTICAS PYME EVOLUCIÓN E INDICADORES DATOS Y GRÁFICOS NACIONALES DATOS Y GRÁFICOS AUTONÓMICOS DATOS Y GRÁFICOS PROVINCIALES Nº 9 ...

tratamiento de datos estadisticos

Introducción a R Sesión 3 Estructuras de Datos y Gráficos

Gráficos en excel TITULO, LEYENDA, TIPO DE DATOS

PPS2015C(PDF)-03-Gráficos Estadisticos y Suficiencia de Datos - Copia

GRÁFICOS. Gráficos: ¿Para que sirven? Con una misma serie de datos puedo crear distinto gráficos Puedo marcar un rango y luego confeccionar el gráfico.

Informe sobre el tratamiento de datos en epidemilogía sobre el tratamiento de datos en...4. El tratamiento de datos en epidemiología: la historia clínica. 14 4.1 El tratamiento

Excel Tratamiento de Datos

Tratamiento de Datos Presentar

Directriz de protección de datos. - Daimler AG · 1.2 Tratamiento de datos para fines publicitarios 7 1.3 Consentimiento con el tratamiento de datos 7 1.4 Tratamiento de datos por

1. Representaciones y gráficos 2. Resumen numérico · Tema 2: Análisis de datos univariantes 1. Representaciones y gráficos ... Otros gráficos. 2. Resumen numérico ... La tabla

Software para gráficos y análisis de datos · informes simples usando la base de datos LNDB no (solo histórico) ninguno tablas, gráficos con trazas múltiples RTMC | Software

MODULO DE HERRAMIENTAS BÁSICAS - usfx.bo de gráficos Tipos y subtipos de gráficos Gráficos de combinación para mostrar datos mezclados Tendencias 3.4 BASES DE DATOS Filtros automáticos

EVOLUCIÓN E INDICADORES · 2017. 3. 2. · evoluciÓn e indicadores datos y grÁficos nacionales datos y grÁficos autonÓmicos datos y grÁficos provinciales nº 7 mayo 2009