Post on 28-Sep-2018
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 1 de 50
Ensayos físico-químicos
TEMA 5
TRATAMIENTO DE DATOS EXPERIMENTALES. GRÁFICOS
- INTERVALO DE CONFIANZA (t STUDENT)
- TRATAMIENTO DE PEQUEÑAS SERIES DE DATOS.
DESCARTE DATOS SOSPECHOSOS.
- AJUSTE DE ECUACIONES A DATOS
EXPERIMENTALES
- GRÁFICOS
Ciclo Formativo Laboratorio de Análisis
y Control de Calidad
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 2 de 50
INTERVALO DE CONFIANZA
1. INTERVALO DE CONFIANZA:
Un resultado analítico y, en general, cualquier resultado de una medida, se presenta
mediante sus límites de error o tolerancias, que suele ser el nombre que se aplica en otras
disciplinas de la industria al mismo concepto. En esta actividad veremos cómo los resultados
analíticos se cuantifican, cómo se expresan y cómo se acompañan de sus correspondientes límites
de error.
Imaginemos que un boletín de análisis nos muestra que la concentración molar calculada
para una determinada solución corresponde a:
c = 0,100 ± 0,002 mol/L
Observamos que la expresión anterior consta del valor más probable (usualmente el valor
medio de una serie de determinaciones) y de una determinada cantidad que ha sido evaluada en
relación a la seguridad con la que queremos mostrar el valor de la concentración. Cuando aumenta
esta cantidad, aumenta la seguridad de que el rango de valores presentados incluya al valor cierto.
En este caso, asumimos que:
0,100 es el valor más probable, situado en el medio del intervalo presentado
0,098 = 0,100 - 0,002 es el valor mínimo incluido en el intervalo
0,102 = 0,100 + 0,002 es el valor máximo incluido en el intervalo
Ahora, mostraremos las ideas anteriores utilizando un lenguaje más riguroso.
1.1. Definiciones:
Llamaremos intervalo de confianza (IC) al rango de valores que proviene de sumar y
restar a la media aritmética (xmed) una cantidad determinada, Δ (intervalo de incertidumbre), para
definir un margen dentro del cual se pueda encontrar el valor real μ, con una probabilidad que
previamente hemos establecido.
Xmed ± Δ
Los valores extremos (superior e inferior) de este intervalo se denominan límites de
confianza, donde:
Xmed – Δ (corresponde al límite de confianza inferior)
Xmed + Δ (corresponde al límite de confianza superior)
La amplitud del intervalo depende en gran medida del nivel de probabilidad fijado. Si
establecemos una probabilidad alta de que el valor real esté incluido, el intervalo de confianza será
grande. Si por el contrario establecemos una probabilidad baja, el intervalo será más pequeño.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 3 de 50
Generalmente, el valor más utilizado como nivel de confianza suele ser del 95% (admitimos
un 5% de probabilidad de que el valor real no se encuentre dentro del intervalo calculado). Esto
proporciona un valor de referencia aceptable en la mayoría de las aplicaciones analíticas y supone
un caso intermedio entre mantener una buena seguridad en la expresión de los resultados y
obtener, al mismo tiempo, un intervalo de confianza no excesivamente grande. En algunos casos
más rigurosos se pueden utilizar como valores de probabilidad los de: 99; 99,9 e incluso 99,99%
Los intervalos de confianza se calculan de acuerdo al valor de la desviación estándar y con la
ayuda de las tablas de probabilidad (indicando para qué probabilidad se han obtenido). Es por esto
que, tanto en los valores analíticos como en las encuestas públicas, sus autores están obligados a
indicar con qué probabilidad se está trabajando.
Por tanto, la expresión c = 0,100 M ± 0,002 puede corresponder tanto a una serie de medidas
de baja o de alta calidad, ya qué no se trata de la misma calidad, por ejemplo, si se utiliza para una
probabilidad del 80% o el 99,99%.
1.2. Intervalos de incertidumbre y probabilidad
Los intervalos de incertidumbre se pueden calcular, en relación con la probabilidad, de la
siguiente forma: N
st ⋅±=∆
Donde: t = es la llamada “t” de Student
s = desviación estándar
N = número de datos
El valor de “t” se utiliza tanto en cálculos estadísticos como en la evaluación de la
diferencia de exactitud de dos series.
El nombre, proviene del científico W.S. Gosset, que introdujo este término en 1908,
firmando con el seudónimo de Student. El númro t se puede obtener de dos formas:
A) OBTENCIÓN DE “t” CON FUNCIONES MATEMÁTICAS:
Se utilizan funciones como las siguientes, donde n indica los grados de libertad:
3290
227,2798,0592,1643,1
nnnt +++=
3295
1676,82161,088062,29477,1
nnnt +++=
B) OBTENCIÓN DE “t” CON TABLAS
Suele ser la forma más habitual, donde t se encuentra para un nivel de confianza y un número
de grados de libertad n determinados. En este caso, por tratarse de una única serie de datos: n = N - 1
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 4 de 50
Así, por ejemplo, las que se utilizan en la tabla siguiente:
Grados de libertad Valores de “t”
Probabilidad utilizada
n = (N – 1) 10 % 50 % 80 % 90 % 95 % 99 % 99,9 %
1 0,158 1,000 3,078 6,3137 12,7062 63,6567 636,619
2 0,142 0,816 1,886 2,9199 4,3026 9,9248 31,598
3 0,137 0,765 1,638 2,3533 3,1824 5,8409 12,941
4 0,134 0,741 1,533 2,1318 2,7764 4,6040 8,610
5 0,132 0,727 1,476 2,0150 2,5705 4,0231 6,859
6 0,131 0,718 1,440 1,9431 2,4469 3,7074 5,959
7 0,130 0,711 1,415 1,8945 2,3646 3,4994 5,405
8 0,130 0,706 1,397 1,8595 2,3060 3,3553 5,041
9 0,129 0,703 1,383 1,8331 2,2621 3,2498 4,781
10 0,129 0,700 1,372 1,8124 2,2281 3,1692 4,587
11 0,129 0,697 1,363 1,7958 2,2009 3,1058 4,437
12 0,128 0,695 1,356 1,7822 2,1788 3,0545 4,318
13 0,128 0,694 1,350 1,7709 2,1603 3,0122 4,221
14 0,128 0,692 1,345 1,7613 2,1447 2,9768 4,140
15 0,128 0,691 1,341 1,7530 2,1314 2,9467 4,073
20 0,127 0,687 1,325 1,7247 2,0859 2,8453 3,850
25 0,127 0,684 1,316 1,7081 2,0595 2,7874 3,725
30 0,127 0,683 1,310 1,6972 2,0422 2,7499 3,646
40 0,126 0,681 1,303 1,6840 2,0210 2,7040 3,551
60 0,126 0,679 1,296 1,6710 2,0000 2,6600 3,460
120 0,126 0,677 1,289 1,6580 1,9800 2,6170 3,373
∞ 0,126 0,674 1,282 1,6448 1,9599 2,5758 3,291
Observamos que el margen que define el intervalo de confianza disminuye con el número de
medidas, es decir, al aumentar el número de medidas, más pequeño es el valor del intervalo de
confianza.
Hay que tener en cuenta que una vez finalizado un análisis, los valores correspondientes a la
desviación estándar s y al número de datos N están fijados por la calidad del trabajo experimental; sin
embargo, el valor de t es inherente al rigor que pretendemos dar al tratamiento de los datos: somos
nosotros los que fijamos este nivel de exigencia en el resultado expresado, cuando elegimos con qué
probabilidad queremos que el valor real se encuentre dentro del intervalo de confianza.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 5 de 50
En los métodos y en los Procedimientos Normalizados de Trabajo (PNT) deben figurar los
criterios estadísticos que deben aplicarse para poder realizar el tratamiento de los datos de forma
homogénea. De esta forma, además, se podrán realizar estudios comparativos y se podrán extraer
conclusiones sobre la bondad de estos datos.
En resumen, para disminuir el intervalo de confianza en un intervalo analítico podemos:
- Incrementar el número de datos, N, es decir, realizar un mayor número de análisis
- Incrementar la calidad de los datos (disminuir su dispersión, s, es decir aumentar su
precisión).
- Disminuir el límite de confianza en el tratamiento de los datos (reducir la probabilidad).
EJERCICIO 1:
Los datos siguientes corresponden a la concentración, en ppm, de monóxido de carbono contenidos en
los gases de combustión.
1,84 1,92 1,94 1,92 1,85 1,91
Datos: media 1,8966…; desviación estándar: 0,0413
Representar el resultado final con un intervalo de confianza del 95 %.
Solución ejercicio 1:
Buscaremos en la tabla el valor de “t” los distintos valores sabiendo que (N = 6; n = 5).
Para 95%
t 95 % (N = 6, n = 5) = 2,57
04,0...043,06
0413,057,2 ±≅±=⋅±=⋅±=∆N
st (con una cifra significativa).
μ = xmed ± Δ = 1,8966… ± 0,04 = 1,90 ± 0,0 = (1,86; 1,94)
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 6 de 50
EJERCICIO 2:
Se ha realizado un análisis de Fluoruros en 10 tubos de pasta dentífrica obteniendo los siguientes
resultados: media; xmed = 25,00 mg/l y desviación estándar; s = 0,10 mg/l
Expresar la concentración de fluoruros con los intervalos de confianza del 90 %; 95 % y 99 %.
Solución ejercicio 2:
Buscamos en las tablas el valor de t para 90%; 95% y 99%.
El valor de “n” será: n = N – 1 = 10 – 1 = 9
t (90%)
t (N = 10 y n = 9, probabilidad del 90%) = 1,8331
...057967,010
10,08331,1 =⋅=⋅±=∆N
st
Δ = 0,06 (una cifra significativa)
t (95%)
t (N = 10 y n = 9, probabilidad del 95 %) = 2,2621
07,0...070585,010
10,02621,2 ≅=⋅=⋅±=∆N
st
Δ = 0,07 (una cifra significativa)
t (99%)
t (N = 10 y n = 9, probabilidad del 99 %) = 3,2498
1,0..10276,010
10,02498,3 ≅=⋅=⋅±=∆N
st
Δ = 0,1 (una cifra significativa)
El intervalo de confianza vendrá determinado por los valores:
t (90%) t (95%) t (99%)
μ = xmed ± Δ
μ = 25,00 ± 0,06
Los extremos de este intervalo:
Límite confianza superior: 25,00 + 0,06 = 25,06
Límite confianza inferior: 25,00 - 0,06 = 24,94
Por tanto, el valor real (μ), con un 90 % de probabilidad, estará incluido dentro del siguiente intervalo de confianza: (24,94; 25,06)
μ = xmed ± Δ
μ = 25,00 ± 0,08
Los extremos de este intervalo:
Límite confianza superior: 25,00 + 0,07 = 25,07
Límite confianza inferior: 25,00 - 0,07 = 24,93
Por tanto, el valor real (μ), con un 95 % de probabilidad, estará incluido dentro del siguiente intervalo de confianza: (24,93 ; 25,07)
μ = xmed ± Δ
μ = 25,0 ± 0,1
Los extremos de este intervalo:
Límite confianza superior: 25,0 + 0,1 = 25,1
Límite confianza inferior: 25,0 - 0,1 = 24,9
Por tanto, el valor real (μ), con un 99 % de probabilidad, estará incluido dentro del siguiente intervalo de confianza: (24,9 ; 25,1)
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 7 de 50
EJERCICIO 3:
Se han realizado 5 valoraciones ácido-base empleando KOH patrón 0,1000 N sobre alícuotas de 25,00 ml
de una disolución problema que contiene un ácido fuerte. Los valores consumidos son en ml:
23,80 23,85 23,80 23,70 23,75
Expresar la normalidad del ácido problema con su intervalo de confianza:
Solución ejercicio 3:
De: Va ∙ Na = Vb ∙ Nb deducimos: Na = Vb ∙ Nb / Va
Donde:
Nb = 0,1000 N
Va = 25,00 ml
Valoración Vb (mL) Na (eq/L)
1 23,80 0,0952
2 23,85 0,0954
3 23,80 0,0952
4 23,70 0,0948
5 23,75 0,0950
Calculando Na med 0,0912
s 2,280 ∙ 10-4
Calcularemos el intervalo de confianza con una probabilidad del 95 % buscando en la tabla:
Para n = 4; recordad que n = N – 1; para una única serie de datos.
t (N = 5 y n = 4, probabilidad del 95 %) = 2,7764 ≈ 2,78
⇒⋅±=⋅⋅±=⋅±=∆ −−
44
10835,25
10280,278,2
N
stΔ = ± 3∙10-4 eq/l (una cifra significativa).
El intervalo de confianza vendrá determinado por los valores incluidos dentro de él:
μ = xmed ± Δ
μ = 0,09512 ± 0,0002835…
μ = 0,0951 ± 0,0003 (con las cifras significativas correctas)
Los valores extremos de este intervalo (los límites de confianza serán):
Límite de confianza inferior: 0,0951 - 0,0003 = 0,0948
Límite de confianza superior: 0,0951 + 0,0003 = 0,0954
Por tanto, el valor real (μ), con un 95 % de probabilidad, estará incluido dentro del
siguiente intervalo de confianza: (0,0948; 0,0954).
Observamos como el tratamiento de los datos se ha efectuado sobre los resultados
finales (normalidades) y no sobre los datos experimentales (volúmenes consumidos).
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 8 de 50
EJERCICIO 4:
Una analítica nos ha proporcionado los siguientes resultados:
23,45 23,52 23,47 23,50 23,47 23,50
Se pide el intervalo de confianza del resultado para t (80%) y (95%).
Solución ejercicio 4:
Efectuando las operaciones oportunas obtenemos los siguientes valores para los valores de la
media y de la desviación:
xmed = 23,485 s = 0,0258843
Para n = 5; recordad que n = N – 1; para una única serie de datos.
t (80%)
t (N = 6 y n = 5, probabilidad del 80%) = 1,476
02,001559,06
0258843,0476,1 ±≅±=⋅±=⋅±=∆N
st(una cifra significativa).
t (95%)
t (N = 6 y n = 5, probabilidad del 95 %) = 2,5705
03,0027,06
0258843,05705,2 ±≅±=⋅±=⋅±=∆N
st (una cifra significativa).
El intervalo de confianza vendrá determinado por los valores:
t (80%) t (95%)
μ = xmed ± Δ
μ = 23,485 ± 0,01559
μ = 23,49 ± 0,02 (con sus cifras correctas)
Los valores extremos de este intervalo:
Límite confianza superior: 23,49 + 0,02 = 23,51
Límite confianza inferior: 23,49 - 0,02 = 23,47
Por tanto, el valor real (μ), con un 95 % de probabilidad, estará incluido dentro del siguiente intervalo de confianza: (23,47; 23,51)
μ = xmed ± Δ
μ = 23,485 ± 0,027
μ = 23,49 ± 0,03 (con sus cifras correctas)
Los valores extremos de este intervalo:
Límite confianza superior: 23,49 + 0,03 = 23,52
Límite confianza inferior: 23,49 - 0,03 = 23,46
Por tanto, el valor real (μ), con un 95 % de probabilidad, estará incluido dentro del siguiente intervalo de confianza: (23,46; 23,52)
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 9 de 50
EJERCICIO 5:
Una serie de analíticas realizadas sobre la concentración de Cr6+ en un agua residual de origen industrial
ha proporcionado los siguientes valores (en ppm):
0,25 0,27 0,22 0,29 0,23
Datos: media 0,252; desviación estándar: 0,028636
Representar el resultado final con un intervalo de confianza del 90, 95 y 99 %.
Solución ejercicio 5:
Buscaremos en la tabla los distintos valores de “t” sabiendo que (N = 5; n = 4).
Para 90 %
t 90 % (N = 5, n = 4) = 2,13
03,002728,05
028636,013,2 ±≅±=⋅±=⋅±=∆N
st (con una cifra significativa).
μ = xmed ± Δ = 0,252 ± 0,03 = 0,25 ± 0,03 = (0,22 ; 0,28)
Para 95 %
t 95 % (N = 5, n = 4) = 2,78
04,003560,05
028636,078,2 ±≅±=⋅±=⋅±=∆N
st (con una cifra significativa).
μ = xmed ± Δ = 0,252 ± 0,04 = 0,25 ± 0,04 = (0,21; 0,29)
Para 99 %
t 99 % (N = 5, n = 4) = 4,60
06,00589,05
028636,060,4 ±≅±=⋅±=⋅±=∆N
st (con una cifra significativa).
μ = xmed ± Δ = 0,252 ± 0,06 = 0,25 ± 0,06 = (0,19; 0,31)
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 10 de 50
1.3.- Observaciones sobre el uso de “t”.
a) Si se trabaja con una baja probabilidad, el valor de t es muy pequeño, y en consecuencia su intervalo
de confianza será pequeño.
Por ejemplo, si el intervalo es de ± 0,002 y se corresponde a un cálculo realizado con dos medidas y
el 80 % de probabilidad, tendríamos que, para el cálculo con un 99 % de probabilidad, el intervalo
sería aproximadamente unas 20 veces más grande y pasaría a ser de ± 0,040.
b) El valor de t siempre es superior a 1, para valores iguales o superiores a una probabilidad del 80 %.
En cambio, t es igual o inferior a 1 para probabilidades iguales o inferiores al 50 %.
Para la mayoría de los resultados químicos la probabilidad a utilizar suele ser superior al 80 % y, tal
como se ha mencionado antes, el valor de compromiso más habitual es del 95%. Este nivel de
probabilidad será el que utilizaremos si no se indica lo contrario.
c) El valor estadístico de t depende del número de análisis efectuados; si aumentamos N, entonces t
disminuye (y al contrario, si disminuimos N, t aumentará).
d) A partir de un determinado número de análisis, el valor de t fluctúa poco.
Por ejemplo para una probabilidad del 80 % si realizamos dos análisis, el valor de t es de 3,08, para
tres análisis, 1,89 (diferencia importante). Si incrementamos la cantidad de análisis, la diferencia se
va haciendo más pequeña hasta llegar a resultados próximos.
e) Para pocos datos analíticos (2 ó 3) los valores de t son grandes y comienzan a bajar a partir de 4. Así,
para 1, 2 ó 3 determinaciones puede ser crítico, mientras que hacer 5 o más no reducirá
significativamente el intervalo calculado
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 11 de 50
TRATAMIENTO DE PEQUEÑAS SERIES DE DATOS
DESCARTE DE DATOS SOSPECHOSOS
1. VALOR SOSPECHOSO.
Cuando se hacen diversas medidas de una magnitud, se obtienen valores de todo tipo y a veces,
uno o más son realmente discrepantes del resto (valores outliers). El problema que se nos presenta es
decidir si pueden pertenecer o no a la misma serie de resultados, es decir, si los podemos utilizar o por
el contrario los hemos de rechazar. La respuesta no es fácil, porque si rechazamos datos de forma
inadecuada podemos perder datos valiosos, además del tiempo y el coste de obtenerlos y, en cambio, si
los aceptamos, podemos hacer variar incorrectamente los resultados.
Para solucionar esta dificultad, existen toda una serie de criterios que nos facilitarán el tomar
una decisión, aquí se presentan los más comunes en el ámbito científico y técnico, para distribuciones
del tipo normal.
En todos los casos, se trata de proporcionar criterios matemáticos objetivos para determinar
qué datos se han de eliminar y cuáles se han de aceptar.
Por ejemplo, imaginemos una serie de datos como ésta:
26,9 26,3 26,2 26,5 26,1
Si la ordenamos de forma escalada, se observa que hay un valor más alejado del resto.
26,1 26,2 26,3 26,5 26,9
Para decidir si el valor se acepta o, por el contrario, se rechaza, tendremos que utilizar algún
criterio objetivo.
Si el criterio es muy estricto, quizás el valor 26,9 se suprima. En este caso, la serie quedará con
cuatro valores y, al volver a aplicar el mismo criterio sobre la nueva serie, igual resulta que hemos de
suprimir el 26,5.
Otras opciones podrían ser aceptar todos los datos y no considerar la posibilidad de rechazar
ninguno, o bien dejar la elección al criterio del analista.
Estas dos opciones son formas de resolver el problema pero también existen otras que
requieren la aplicación general de criterios matemáticos, habitualmente mediante la evaluación previa
de un determinado parámetro de dispersión, como la desviación media, el rango o la desviación
estándar.
La elección del criterio se realiza en función de la restricción que queremos aplicar a la
aceptación de los datos, la simplicidad del cálculo y la disponibilidad o no de tablas estadísticas
adecuadas. Vamos a comentar a continuación algunos de los criterios más empleados.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 12 de 50
1.1. Criterio 2,5 d
Es el más estricto y sólo se utiliza para casos en los que estén en juego medidas de investigación,
como en un análisis farmacéutico y, en general, en todos aquellos casos en los que queremos ser muy
rigurosos con el tratamiento de los resultados.
Características:
APLICACIÓN. Para que se pueda aplicar este criterio se han de tener series de al menos 4 o más
resultados.
MÉTODO. No utilizar el resultado dudoso. Calcular la media aritmética y la desviación media del resto de
los datos ( x = media aritmética; dm = desviación media).
CRITERIO. Si el resultado sospechoso está dentro del intervalo x ± 2,5∙dm se acepta, de lo contrario se
rechaza.
En el caso de que sea rechazado, se ha de repetir la operación hasta que todos los valores sean
aceptados.
Reorganizamos la tabla sin tener en cuenta el resultado sospechoso.
Datos xi - x
26,1 0,175
26,2 0,075
26,3 0,025
26,5 0,225
Media Desv. media
26,3 0,125
En nuestro caso tendremos la tabla con los resultados de x = 26,275 y de dm = 0,125
Aplicando el criterio “2,5d”:
x ± 2,5∙dm
26,275 ± (2,5 ∙ 0,125) = 26,275 ± 0,3125
Redondeando = 26,3 ± 0,3 (con las cifras significativas correctas.
Con lo cual el intervalo válido sería: (26,0; 26,6)
Mínimo = 26,0 y máximo = 26,6
El dato sería rechazado, ya que 26,9 no está dentro de este intervalo.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 13 de 50
1.2. Criterio 4d
Es muy utilizado para el tratamiento de datos con criterios rigurosos, pero no extremos.
Características:
APLICACIÓN. Para que se pueda aplicar este criterio se han de tener series de al menos 4 o más
resultados.
MÉTODO. No utilizar el resultado dudoso. Calcular la media aritmética y la desviación media del resto de
los datos ( x = media aritmética; dm = desviación media).
CRITERIO: Si el resultado es sospechoso está dentro del intervalo x ± 4∙dm se acepta, de lo contrario se
rechaza.
Este criterio, por tanto, ya abre un poco más el margen de aceptación para un resultado sospechoso. Es
frecuente encontrarse con una serie estadística donde se desprecien uno o diversos valores al aplicar el
criterio 2,5 d y, en cambio, puedan ser aceptados con el criterio 4d.
Siguiendo el mismo criterio que en el caso anterior tendríamos:
Reorganizamos la tabla sin tener en cuenta el resultado sospechoso.
Datos xi - x
26,1 0,175
26,2 0,075
26,3 0,025
26,5 0,225
Media Desv. media
26,3 0,125
En nuestro caso tendremos la tabla con los resultados de x = 26,275 y de dm = 0,125
Aplicando el criterio “4d”:
x ± 4∙dm
26,275 ± (4 x 0,125) = 26,275 ± 0,5
Redondeando = 26,3 ± 0,5
Con lo cual el intervalo válido sería: (25,8; 26,8)
Mínimo = 25,8 y máximo = 26,8
El dato sería rechazado, ya que 26,9 no está dentro de este intervalo.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 14 de 50
1.3. Criterio Q de Dixon.
Es uno de los criterios más utilizados, aunque es menos restrictivo que los anteriores.
Características:
APLICACIÓN. Aplicable a una serie analítica con 3 o más valores. Este criterio presenta un cálculo más
sencillo pero requiere la presencia de la tabla estadística correspondiente. Un problema que resulta de
su aplicación para series muy reducidas (3 ó 4 valores) es que acepta muchos valores dudosos. En estos
casos el valor de Q es muy grande y se ha de ir con cuidado.
MÉTODO: Se trata de realizar el cociente de esta forma:
CRITERIO: Si el resultado Q, correspondiente al valor sospechoso, se más grande que el que se
encuentra en la tabla, se rechaza. En caso contrario, se acepta.
Volvamos a considerar el ejemplo anterior:
• Primero se ha de ordenar la serie mayor menor (o viceversa): 26,9; 26,5; 26,3; 26,2 26,1.
• El valor sospechoso es el 26,9 porque está separado del resto de valores.
• El más cercano a él es el 26,5.
• El rango es la diferencia entre los extremos. Entonces será: 26,9 - 26,1 = 0,8.
• El valor de Q obtenido con la fórmula anterior es:
5,08,04,0
1,269,26
5,269,26==
−−
=Q
• A continuación, se selecciona el valor de Q correspondiente a la tabla del criterio, de la cual
presentamos una versión reducida (Q 90%) en la figura siguiente:
• Si el valor encontrado es más grande que el que marca la tabla, podemos rechazar el valor
sospechoso asegurando con un mínimo del 90% de probabilidad de que este valor no pertenece
a la serie estadística. Si el valor obtenido es igual o menor al de la tabla, se acepta.
• En nuestro caso, tendremos que, para 5 valores, “Q” ha de ser de 0,64, y como 0,5 es más
pequeño que dicho valor, se acepta como integrante de la serie el valor 26,9.
Número medidas N 3 4 5 6 7 8 9 10
Valor Q 0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41
Diferencia entre el valor sospechoso y el más cercano a él Q = Rango
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 15 de 50
1.4. Criterio R de Grubbs.
El criterio R de Grubbs introduce criterios de probabilidad y grados de libertad para definir un intervalo
que permita rechazar los datos sospechosos que estén por exceso o por defecto.
Características:
APLICACIÓN. Aplicable a una serie analítica con 3 o más valores. Este criterio es más habitual en el
estudio de las series estadísticas, y no tanto en el estudio de series simples.
MÉTODO: para calcular x y s utilizaremos todos los datos, incluso el valor sospechoso.
s
xxR
s −=
Donde:
xs es el valor sospechoso, x la media aritmética y s la desviación estándar.
CRITERIO: si el resultado es sospechoso es más grande que el que aparece en la tabla R, para el valor de
probabilidad y los grados de libertad, se rechaza. En caso contrario se acepta.
Tabla de Grubbs parcial
N Probabilidad
90 % 95 % 99 %
3 1,148 1,153 1,155
4 1,425 1,463 1,492
5 1,602 1,672 1,749
6 1,729 1,882 1,944
7 1,828 1,938 2,097
8 1,909 2,023 2,221
9 1,977 2,110 2,323
10 2,036 2,176 2,410
11 2,088 2,234 2,485
12 2,134 2,285 2,550
13 2,175 2,331 2,607
14 2,213 2,371 2,659
15 2,247 2,409 2,705
16 2,279 2,443 2,747
17 2,309 2,475 2,785
18 2,335 2,504 2,821
19 2,361 2,532 2,854
20 2,385 2,557 2,884
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 16 de 50
Podemos observar la evolución del valor Q (90%) y de R (para 90%, 95% y 99% en función del
número de datos, N, tal como nos muestran las siguientes gráficas:
En la izquierda, variación de Q (90%) con N; en la derecha, variación del valor de R con N. Como
se observa en las gráficas, el valor de Q (90%) disminuye al aumentar el número de datos, al contario
que los valores de R. Además los valores de R se incrementan a medida que se incrementa el nivel de
probabilidad, aunque para series de datos con muy pocos valores, los valores de R no dependen tanto
de la probabilidad.
En nuestro ejercicio anterior realizamos los cálculos incluyendo el dato sospechoso:
datos Xi - Xmed (Xi - Xmed)2
26,1 0,3 0,09
26,2 0,2 0,04
26,3 0,1 0,01
26,5 0,1 0,01
26,9 0,5 0,25
Media 26,4 0,4
Desviación s = 0,3
Calculamos ahora el valor de R según la fórmula: 67,13,0
5,0
3,0
4,269,26==
−=
−=
s
xxR
s
calc
Buscamos R en la tabla Rtabul (N = 5 ; 90 %) = 1,602; no se acepta porque Rcal > Rtab
Buscamos R en la tabla Rtabul (N = 5 ; 95 %) = 1,672; se acepta porque Rcal < Rtab
Buscamos R en la tabla Rtabul (N = 5 ; 99 %) = 1,749; se acepta porque Rcal < Rtab
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 17 de 50
1.5. Criterio 2s.
Es una herramienta muy útil para decidir si hay que aceptar o no posibles valores sospechosos.
Al igual que los criterios basados en definiciones de intervalos de aceptación alrededor de un
valor medio, como en el caso de los criterios 2,5d y 4d, presenta la ventaja de no necesitar tablas
estadísticas auxiliares en su aplicación.
Este criterio tiene realmente sentido cuando se aplica en series donde el número de datos es
muy importante, donde pueda asumirse sin un riesgo excesivamente grande que la distribución de los
datos corresponde a una distribución normal o se aproxima mucho a ella. Bajo esta hipótesis, el
intervalo fijado alrededor del valor medio y el ± 2s correspondería a una probabilidad del 95 %, tal como
ya se ha visto en temas anteriores.
El criterio 2s presenta, respecto de los criterios basados en el cálculo de la desviación media, la
ventaja de poder ser empleado con más comodidad, porque el cálculo de la desviación estándar resulta
prácticamente inmediato cuando utilizamos una calculadora científica o un programa informático.
Características:
APLICACIÓN. Para 4 valores o más. Será tanto más eficaz cuantos más valores experimentales tenga la
serie. Pero es necesario, en todos los casos, que los datos tiendan a distribuirse normalmente.
MÉTODO: Para el cálculo no se ha de utilizar el valor que consideremos sospechoso. Con el resto de los
valores calcularemos la media aritmética y la desviación estándar.
CRITERIO: Si el resultado sospechoso está dentro del intervalo: sx 2± se acepta, de lo contrario se
rechaza. En el caso de que el valor sospechoso coincida con uno de los límites del intervalo calculado, se
aceptará.
Reorganizamos la tabla sin tener en cuenta el resultado sospechoso.
datos Xi - Xmed (Xi - Xmed)2
26,1 0,175 0,030625
26,2 0,075 0,005625
26,3 0,025 0,000625
26,5 0,225 0,050625
Media 26,275 ≈ 26,3
Desviación s = 0,1708 ≈ 0,2
En nuestro caso tendremos la tabla con los resultados de x = 26,3 y de s = 0,2
Aplicando el criterio “2s”: x ± 2s; 26,3 ± (2 ∙ 0,2) = 26,3 ± 0,4
Redondeando = 26,3 ± 0,4; Intervalo válido: (25,9 – 26,7)
El dato sería rechazado, ya que 26,9 no está dentro de este intervalo.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 18 de 50
1.6. Resumen:
Se presenta a continuación una aplicación de lo que se ha visto en las en las páginas anteriores,
referidas al análisis de los datos. Se muestra el tratamiento general que debería seguir una serie de
datos experimentales para llegar a la presentación del resultado final. Estas etapas no son las únicas que
se pueden realizar y sólo se presentan como caso genérico.
Cada procedimiento normalizado de trabajo con datos experimentales ha de incluir el
tratamiento detallado de los datos obtenidos.
En el caso de series con pocos datos pueden obviarse las primeras etapas a y b.
a) Ordenar los datos con sus cifras significativas. Efectuar el recuento de frecuencias.
b) Analizar la distribución a partir de:
• La representación de su histograma
• La clasificación de la distribución (grado de normalidad, modalidad, etc.)
• La selección de los posibles valores sospechosos
c) Elegir el criterio para aceptar o rechazar los valores sospechosos:
La opción más habitual suele ser el criterio Q. Puede emplearse cualquier otro si así lo
determina el procedimiento normalizado de trabajo o bien el rigor que se exige al tratamiento
de los datos. Sea cual sea el criterio seleccionado, se recomienda no dejar sólo en manos de la
estadística la decisión sobre la aceptación de resultados.
Recordemos que, en el caso de encontramos ante errores sistemáticos, estos tratamientos
matemáticos pierden su validez y, entonces, la forma de actuar más conveniente debería
consistir en la obtención de una nueva serie de datos, previa resolución de los errores
comentados.
d) Calcular, a partir de los datos aceptados, la media aritmética, la desviación estándar y la desviación
estándar relativa %
e) Escoger el nivel de confianza.
El intervalo de confianza más habitual es el calculado a partir de un nivel de confianza de 95%,
pero se puede emplear cualquier otro si así lo determina el procedimiento normalizado de
trabajo o bien el rigor que se exige al tratamiento de los datos.
f) Calcular el intervalo de confianza correspondiente.
g) Expresar el resultado final con su intervalo y con el número de cifras adecuadas.
Los procedimientos normalizados de trabajo deben hacer referencia tanto al tratamiento de los
datos como a los criterios a aplicar para poder aceptar o rechazar los posibles valores sospechosos.
?
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 19 de 50
EJERCICIO 1:
Una analítica nos ha proporcionado los siguientes resultados:
23,45 23,52 23,34 23,47 23,50 23,47 23,50
Se pide:
Hacer su estudio estadístico con la utilización de los criterios habituales: criterio Q (90%) para la
selección de los posibles valores sospechosos y t (95%) para la expresión del resultado final.
Solución ejercicio 1:
A pesar de tratarse de una pequeña serie de datos y las etapas a y b no son necesarias, también las
presentamos como ejemplo.
Etapas a y b.
Valor Frecuencia
23,34 1
23,45 1
23,47 2
23,50 2
23,52 1
0
1
2
3
23,30 23,35 23,40 23,45 23,50 23,55
VALORES
FR
EC
UE
NC
IAS
De forma visual se comprueba la distribución de los valores y como el valor 23,34 resulta ser un
valor sospechoso.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 20 de 50
Etapa c:
Aplicamos el criterio Q (90%) del valor sospechoso.
Qcalculado = (|23,34 – 23,45|)/(|23,52 – 23,34|) = 0,61
Número medidas N 3 4 5 6 7 8 9 10
Valor Q 0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41
El resultado es 0,61 y lo comparamos con el valor de Q (90%; N = 7) de la tabla que es Qtabulado = 0,51
Como el Qcalculado es más grande que el Qtabulado eso significa que se rechaza el valor 23,34.
Una vez rechazado el valor 23,34 los siguientes valores más extremos de la serie son por igual los de
23,45 y 23,52 por lo que investigamos cada uno de ellos y aplicamos el juicio que resulte sobre los dos:
Qcalculado = (|23,45 – 23,47|)/(|23,52 – 23,45|) = 0,28
Q (90%; N = 6) de la tabla que es Qtabulado = 0,56
Qtabulado = 0,56
Esta claro que Qcalculado es más pequeño que el Qtabulado, eso quiere decir que se acepta el valor 23,45.
Los valores aceptados de la serie, con los que continuamos el tratamiento estadístico, son:
23,52 23,34 23,47 23,50 23,47 23,50
Etapa d:
Si efectuamos las operaciones oportunas obtenemos:
485,23=x s = 0,0258843 %st (RSD) = 0,11%
Etapas e y f:
t(95% y N = 6, n = 5) = 2,571
03,0027,06
0258843,0571,2 ±≅±=⋅±=⋅±=∆N
st
Etapa g:
El resultado es: 23,49 ± 0,03
μ = xmed ± Δ = 23,49 ± 0,03 = (23,46; 23,52)
Hay que recordar los criterios en cuanto al número de cifras significativas y los criterios de redondeo.
Fijémonos que el valor medio y el intervalo de confianza están expresados con la misma precisión.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 21 de 50
EJERCICIO 2:
Se ha realizado una determinación del porcentaje en peso de un ácido orgánico en una muestra y hemos
obtenido los siguientes resultados:
30,8 31,6 33,1 37,2 29,4
Aplicando los criterios 2,5d; 4d y Q investigar si alguno de los valores se puede rechazar.
Solución ejercicio 2:
Ordenamos la serie:
29,4 30,8 31,6 33,1 37,2
El valor que se observa más alejado es el 37,2. Por lo tanto aplicaremos los distintos criterios:
a) Criterio 2,5d
Calculamos la media aritmética y la desviación media sin contar con el sospechoso:
Media = 124,9/4 = 31,225
Desviación media = 1,125
Calculamos el valor xmed ± 2,5 dm = 31,225 ± 2,5 ∙ 1,125 = 31,225 ± 2,8125
El intervalo será por tanto (28,4125; 34,0375) = (28,4; 34,0)
El valor 37,2 es más alto que el valor 34,0 calculado, por lo que SE DESCARTA.
b) Criterio 4d
Operando como en el caso anterior
Calculamos el valor xmed ± 4 dm = 31,225 ± 4 ∙ 1,125 = 31,225 ± 4,5
El intervalo será por tanto (26,725 ; 35,725)
El valor 37,02 es más alto que el valor 35,725 calculado, por lo que SE DESCARTA.
c) Criterio Q de Dixon:
Q = (diferencia entre valor sospechoso – valor más cercano a él) / rango
(Q para 37,2) = (37,2 – 33,1) / (37,2 – 29,4) = 0,5256
Miramos en la tabla para Q (90%, N = 5) = 0,64
Número medidas N 3 4 5 6 7 8 9 10
Valor Q 0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41
Qcal < Qtab � NO SE DESCARTA EL DATO
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 22 de 50
EJERCICIO 3:
En la normalización de una solución de hidróxido de sodio las tres medidas de normalidad han sido:
0,1023 0,1082 0,1100
Para un cuarto valor y aplicando el criterio Q (90%) se pide:
a) ¿Cuál puede ser el valor máximo aceptable?
b) ¿Cuál puede ser el valor mínimo aceptable?
Solución ejercicio 3:
a) Aplicamos el criterio Q:
Q = (diferencia entre valor sospechoso – valor más cercano a él) / rango
Miramos en la tabla para N = 4, obtenemos un valor de Q = 0,76.
Número medidas N 3 4 5 6 7 8 9 10
Valor Q 0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41
76,01023,0
1100,0
max
max =−−
==x
x
rango
diferenciaQ
Resolviendo xmax = 0,1344 N
Un valor más alto nos daría un valor de Qcal más alto que Qtab y tendría que rechazarse.
b) Aplicamos el criterio Q:
Q = (diferencia entre valor sospechoso – valor más cercano a él) / rango
Miramos en la tabla para N = 4, obtenemos un valor de Q = 0,76.
Número medidas N 3 4 5 6 7 8 9 10
Valor Q 0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41
76,01100,0
1023,0
min
min =−−
==x
x
rango
diferenciaQ
Resolviendo xmin = 0,0779
Un valor más bajo nos daría un valor de Qcal más alto que Qtab y tendría que rechazarse.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 23 de 50
EJERCICIO 4:
En la determinación de la molaridad de una disolución se obtuvieron los siguientes resultados:
0,5027 0,5030 0,5024 0,5032 0,5026 0,5113
Datos: Con valor 0,5113. Media = 0,5042 M Desviación estándar = 3,4899∙10-4
Sin valor 0,5113. Media = 0,5028 M Desviación estándar = 3,1937∙10-4
a) Aplicando el criterio Q (90%), ¿podemos considerar correcto el valor 0,5113?
b) Expresar el valor final con su intervalo de confianza, al 95 %, con el número correcto de cifras
significativas.
Solución ejercicio 4:
a) Aplicamos el criterio Q:
Q = (diferencia entre valor sospechoso – valor más cercano a él) / rango
91,05024,05113,0
5032,05113,0=
−−
==rango
diferenciaQcal
Miramos en la tabla para N = 6, obtenemos un valor de Q = 0,56
Número medidas N 3 4 5 6 7 8 9 10
Valor Q 0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41
Qcal > Qtab � no podemos aceptar el valor 0,5113 y no se introducirá en los cálculos.
b) Para 95 %. Utilizamos la media y desviación estándar sin contar con el sospechoso.
t 95 % (N = 5, n = 4) = 2,7764
0004,01096,35
101917,37764,2 44
≅⋅±=⋅⋅±=⋅±=∆ −−
N
st(con una cifra significativa).
μ = xmed ± Δ = 0,5028 ± 0,0004 = (0,5024; 0,5032).
EJERCICIO 5:
Para la siguiente serie de datos:
10 15 20 50 70
Datos: (con todos los valores). Media = 33 Desviación estándar = 25,88
Datos: (sin valor 70). Media = 23,75 Desviación media = 13,125 Desviación estándar = 17,97.
Mostrar los valores que se rechazarán al aplicar cada uno de los procedimientos de aceptación:
a) Criterio Q (90 %).
b) Criterio 2,5 d
c) Criterio 4d
d) Criterio R (95 %).
e) Criterio 2s
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 24 de 50
Solución ejercicio 5:
a) Criterio Q (90 %).
Q = (diferencia entre valor sospechoso – valor más cercano a él) / rango
Miramos en la tabla para N = 5, obtenemos un valor de Q = 0,64
Número medidas N 3 4 5 6 7 8 9 10
Valor Q 0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41
4,01070
5070=
−−
==rango
diferenciaQcal
Qcal < Qtab � aceptamos el valor 70.
b) Criterio2,5d. Sin sospechoso.
Calculamos el valor xmed ± 2,5 dm = 23,75 ± 2,5 ∙ 13,125 = 23,75 ± 32,8125 = 23,75 ± 32,81
El intervalo será por tanto (- 9,06; 56,56)
El valor 70 es más alto que el valor 56,56 calculado, por lo que SE DESCARTA.
c) Criterio 4d. Sin sospechoso.
Calculamos el valor xmed ± 4 dm = 23,75 ± 4 ∙ 13,125 = 23,75 ± 52,50
El intervalo será por tanto (- 28,75; 76,25)
El valor 70 es más bajo que el valor 76,25 calculado, por lo que SE ACEPTA.
d) Criterio R (95 %). Con sospechoso.
Hay que comentar que este criterio solo sería aplicable a series que tienen una distribución normal,
pero utilizaremos esta serie como ejemplo de cálculo.
Con los datos de la desviación estándar con todos los datos aplicamos la fórmula:
429,188,25
3370=
−=
−=
s
xxR
s
cal
En la tabla para R (95 %) y N = 5; Rtab = 1,672…
Como Rcal < Rtab ; se acepta el datos sospechoso.
e) Criterio 2s. Sin sospechoso.
Tampoco sería aplicable este criterio al no ser una distribución normal. Lo haremos como ejemplo.
Calculamos el valor xmed ± 2 s = 23,75 ± 2 ∙ 17,97 = 23,75 ± 35,94
El intervalo será por tanto (- 12,19; 59,69)
El valor 70 es más alto que el valor 59,69 calculado, por lo que SE DESCARTA.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 25 de 50
AJUSTE DE ECUACIONES A DATOS EXPERIMENTALES
1. INTRODUCCIÓN.
Durante la realización de una experiencia, se van recogiendo los datos que corresponden a los
valores que toma una variable a lo largo de un intervalo de trabajo. La representación de estos datos
constituye lo que se denomina genéricamente una nube de puntos. Muchas veces, el estudio de estos
datos demuestra que su variación es lineal con respecto a una magnitud, es decir, la relación que
presentan puede ser descrita mediante una sencilla función del tipo:
y = mx + b
Donde m es la pendiente de la recta y b es la ordenada en el origen.
Por ejemplo:
- Las elongaciones de un muelle, que actúa como una balanza, varían con el peso que
soportan.
- Las alturas que alcanza un capilar de mercurio en un termómetro varían con la
temperatura que registran.
- La conductancia de una solución salina varía con su concentración.
Si se conoce el modelo matemático que siguen los datos y puede encontrarse la ecuación
matemática que los representa, el estudio de los pares de datos registrados debería responde a las
siguientes cuestiones:
- ¿Cuál es la calidad de ajuste de datos al modelo propuesto, cómo concuerdan?
- ¿Cuál es el error cometido al asumir el modelo?
- ¿Cuál es el grado de asociación entre variables, cuál es el grado de linealidad?
- ¿Cómo realizar correctamente predicciones, interpolando o extrapolando, respecto al
intervalo estudiado?
La mayoría de las veces nos encontramos con que los modelos a ajustar son lineales o
asimilables a ellos. Si no es así, puede limitarse el estudio de las variables a una zona lineal más reducida
o bien reformular los modelos para ajustar los datos a ecuaciones lineales.
El método matemático más utilizado para ajustar datos experimentales a un modelo lineal es el
denominado método de los mínimos cuadrados. Aporta muchas ventajas y es fácil aplicarlo ya que lo
suelen incorporar las calculadoras científicas más avanzadas y todos los programas informáticos de
tratamiento de datos y hojas de cálculo.
Existen otros métodos como el de la mediana simple, no tan potente ni conocido como el
anterior pero que, entre otras ventajas, resulta ser bastante insensible a la presencia de puntos
anómalos (sometidos a errores).
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 26 de 50
EJERCICIO 1.
La polarografía es una técnica instrumental que proporciona medidas de intensidad de
corriente, I, en función de la concentración de patrones conocidos. Una calibración del tensioactivo
MCA, utilizando esta técnica, proporcionó la siguiente información:
Polarografía
MCA (ppm)
0,0 45,5 90,9 167 231 286 333
I
(nA) 0 2 4 5,8 7,4 8,8 10,5
Se pide:
a) Hacer la gráfica de la concentración (abscisas) respecto a la intensidad (ordenadas). Dibujar
a ojo, la mejor recta que corresponda al conjunto de los puntos (algunos puntos podrán
quedar por debajo de ella y otros por encima).
b) A partir de la recta dibujada, determinar gráficamente qué concentración (ppm) habría que
esperar para una intensidad de 6,2 nA.
c) ¿Qué señal analítica (nA) correspondería a un patrón de MCA de 70 ppm.
d) Determinar las coordenadas de dos puntos suficientemente separados de la recta dibujada
y, a partir de éstos, la ecuación matemática de la recta. Repetir el cálculo de los apartados
anteriores utilizando ahora la ecuación matemática.
Recordar que la ecuación que pasa por dos puntos, 1 y 2 puede deducirse como sigue:
(y2 – y1) / (x2 – x1) = (y – y1) / (x – x1)
e) Comentar ambos métodos.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 27 de 50
Solución ejercicio 1:
A) Dibujamos la gráfica y dibujamos la recta por aproximación.
B) Determinamos a partir de esta recta el valor para una señal de 6,2 nA (línea roja) obtenemos un
valor de MCA en ppm ≈ 190
C) Lo mismo para 70 ppm de MCA (línea azul) obtenemos una valor en nA ≈ 2,3
D) Seleccionamos los puntos 100 ppm y 300 ppm de MCA para obtener la fórmula de la recta con
los datos siguientes:
X1 = 100 ppm Y1 = 3,4
X = X ppm Y = Y
X2 = 300 ppm Y2 = 9,9
Con estos datos calculamos la ecuación de la recta según la fórmula:
(y2 – y1) / (x2 – x1) = (y – y1) / (x – x1)
(9,9 – 3,4) / (300 – 100) = (y – 3,4) / (x – 100)
Resolviendo:
y = 0,0325 x + 0,15
Calculamos ahora los datos anteriores con la fórmula hallada:
- Para el valor de y = 6,2 nA � x = 186
- Para el valor de x = 70 ppm � y = 2,4
E) Comentario sobre los resultados: Hemos obtenidos unos resultados similares gráficamente y
obteniendo de forma matemática la ecuación de la recta.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 28 de 50
2. MÉTODO DE LOS MÍNIMOS CUADRADOS.
Como ya se ha comentado anteriormente, muchas determinaciones físicas o químicas se pueden
ajustar a una función del tipo lineal.
Durante el trabajo experimental, donde un determinado instrumento responde a una variable
que queremos estudiar, es conveniente recoger los datos a partir de una tabla de doble entrada del tipo
siguiente:
x x1 x2 x3 x4 x5 x6 …. xn
y y1 y2 y3 y4 y5 y6 …. yn
En la que:
x es la variable
y es el valor de la propiedad objeto de medida
A partir de esta tabla se trata de encontrar una función matemática, en nuestro caso de tipo
lineal, que pueda reproducir lo mejor posible a estos valores. Una de las formas de hacerlo es mediante
el método de los mínimos cuadrados.
Para verlo con más claridad, consideremos una representación gráfica como la siguiente:
Los puntos representan los datos en un sistema de coordenadas. A la izquierda, parece existir
una proporcionalidad entre las dos variables. A la derecha, no se observa una correlación importante
entre dichas variables.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 29 de 50
2.1. Ecuaciones de ajuste.
El método de los mínimos cuadrados proporciona la ecuación de una recta que representa a los
datos experimentales, cumpliendo la hipótesis de hacer mínima la suma de los cuadrados residuales.
Se entiende por residual la distancia que hay entre el valor experimental y el proporcionado por
la ecuación de ajuste.
Residualx = xexperimental – xcalculada = Δx
Residualy = yexperimental – ycalculada = Δy
Nos centraremos en los valores residuales de “y” ya que es en ordenadas, por convenio, donde
se sitúan los valores obtenidos en las mediciones (señales analíticas). Si elevamos al cuadrado esta
última distancia para prescindir de si es positiva o negativa (es decir, si el valor experimental se
encuentra por encima o por debajo de la ecuación encontrada) y sumamos todos los residuales al
cuadrado anteriores obtendremos, como parámetro de la calidad del ajuste, la Suma de los Cuadrados
Residuales (SCR).
Supongamos que la recta que mejor cumple estos requisitos es la dibujada a continuación:
Ajuste de una recta a un conjunto de puntos experimentales. La diferencia entre los valores
experimentales y los proporcionados por el modelo se determina a partir de la residual
correspondiente.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 30 de 50
Como vemos, existen puntos como “1” y “2” a los lados de la recta y otros que son puntos de la
misma recta, como el “3”. En todos los casos, podremos calcular las distancias Δx y Δy entre los puntos y
la recta de ecuación:
y = mx + b
La anterior recta no sabemos con certeza por dónde pasa, pero podemos imponer la condición
de que la suma de los cuadrados de todas las distancias sea el valor más pequeño posible.
Matemáticamente
SCR = ∑ [y – (b + mxi)]2
Esta función depende de los coeficientes b y m de la ecuación de la recta que, recordemos,
responde a la hipótesis formulada:
SCR = SCR (b, m)
Minimizando la expresión anterior, a partir de las derivadas parciales respectivas de la ecuación
respecto de m y b igualadas a cero y resolviendo el sistema para N pares de datos (x, y), puede
deducirse que:
∑ ∑∑ ∑ ∑
−⋅⋅−⋅
= 22 )(
.
xxN
yxyxNm
∑ ∑∑ ∑ ∑ ∑
−⋅⋅⋅−⋅
= 22
2
)( xxN
yxxxyb
Este cálculo se hace, habitualmente, de forma automática con la ayuda de una hoja de cálculo
como Excel o una calculadora. También se puede hacer por etapas, utilizando tablas como la siguiente:
Entre otras posibilidades, este método permite también determinar los intervalos de confianza
que aparecen alrededor de los parámetros calculados, utilidad interesante para la validación de
métodos analíticos.
y x x.y x2 y2 (b + mxi – yi)2
Sumatorios: ∑y ∑x ∑x.y ∑x2 ∑y2 ∑(b + mxi – yi)2
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 31 de 50
EJERCICIO 2.
La relación entre la altura y el peso de un grupo de 10 chicos, elegidos al azar fue:
Peso en Kg: 63 72 60 66 70 74 65 62 67 68
Altura en cm: 150 180 135 156 168 178 160 132 145 152
a) Gráfica de datos. Representar en el eje X el peso y en el eje Y las alturas.
b) Ajustar una recta por mínimos cuadrados a los datos de esta muestra.
c) Estimar la altura de una estudiante que pesa 63 Kg.
d) Estimar el peso de una estudiante que tiene 168 cm. de altura.
Solución ejercicio 2:
Se realizan los cálculos y se representan en forma de tabla:
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 32 de 50
2.2. Medida del grado de ajuste (r y r2).
La medida del grado de ajuste entre los datos originales y los previstos por la ecuación calculada
se puede evaluar de diferentes formas.
a) A partir del valor de SCR encontrado (definido anteriormente). La concordancia entre la recta
calculada y los datos aumentará a medida que el valor de SCR sea menor. No olvidemos que la recta
encontrada es, dentro de las posibles, la que tiene un valor de SCR menor.
b) A partir del valor del coeficiente de correlación, r, calculado en función de los datos iniciales.
})({})({ 2222∑ ∑ ∑ ∑
∑ ∑ ∑−⋅⋅−⋅
⋅−⋅⋅=
yyNxxN
yxyxNr
De forma alternativa, si suponemos que el denominador es diferente de cero:
∑ ∑
∑−⋅−
−⋅−=
22 )()(
)}(){
rectarecta
rectarecta
yyxx
yyxxr
Finalmente, si se prefiere, puede expresarse el coeficiente de relación en función de los valores
medios de x , y de y , así como de sus respectivas desviaciones estándares σx y σy:
yx
yxN
yx
rσσ ⋅
⋅−⋅
=
∑ )(
Tener en cuenta que los posibles valores de r están comprendidos en el intervalo:
0 ≤ │r│ ≤1
y que el signo, positivo o negativo, del coeficiente r coincide con el valor del signo de la pendiente m
deducida de la ecuación.
En los casos extremos:
│r│= 0, no hay ninguna asociación entre las variables
│r│= 1, total asociación entre las variables
Ahora bien, en el caso de que dispongamos de pocos datos, se pueden obtener valores cercanos
a 1 y esto, por si sólo, puede ser poco indicativo de la posible calidad de la ecuación. El caso extremo
aparece cuando tan solo tenemos dos parejas de datos (en este caso r = 1). Por el contrario, si tenemos
suficiente datos distribuidos de forma homogénea y el coeficiente de correlación se acerca al valor 1,
podremos afirmar que el valor de la asociación entre variables es muy elevado y, al mismo tiempo,
significativo.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 33 de 50
En química analítica, durante el estudio de las calibraciones y la verificación de métodos dentro
de determinados intervalos, se suelen obtener linealidades muy buenas. A menudo se habla, entonces,
del número de nueves que presenta el coeficiente r encontrado y así es posible la calificación del ajuste
efectuado, tal y como muestra la tabla siguiente:
r Calidad del ajuste
0,9 a 0,99 Muy deficiente
0,99 a 0,999 Deficiente
0,999 a 0,9999 Bueno
0,9999 a inferior a 1 Muy bueno
1 Coincidencia absoluta
En muchas calculadoras y programas informáticos es usual encontrar como factor de correlación
el valor r2 (atención porque entonces el valor de r2 es inferior a r).
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 34 de 50
2.3. Ecuaciones de ajuste con utilización de un programa informático EXCEL.
Una manera más sencilla de realizar estos ejercicios es la utilización de la hoja de cálculo Excel
para la determinación de la recta y los valores de r2.
EJERCICIO AJUSTE UTILIZANDO LA HOJA DE CÁLCULO EXCEL.
Vamos a resolver el mismo ejercicio del principio del tema con la tabla siguiente:
ppm 0,0 45,5 90,9 167 231 286 333
nA 0 2 4 5,8 7,4 8,8 10,5
1º) Copiamos la tabla en excel:
2º) Seleccionamos las dos filas:
3º) Marcamos el asistente para gráficos:
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 35 de 50
4º) Abrimos el asistente de gráficos y seleccionamos el tipo de dispersión y pulsamos finalizar:
5º) Obtenemos un gráfico similar como el siguiente:
6º) Pulsamos con el botón derecho en cualquiera de los puntos de la gráfica y aparece el submenú que
se observa en la figura.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 36 de 50
7º) Pulsamos en “Agregar línea de tendencia”. En este caso seleccionamos la tendencia lineal.
8º) En la pestaña de opciones marcamos: “Presentar ecuación en el gráfico” y “Presentar el valor R
cuadrado en el gráfico”
10º) Pulsamos aceptar y obtenemos la recta, la ecuación de la misma y el valor r2.
11º) Solo nos quedará dar el formato más adecuado y vistoso a nuestro gráfico.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 37 de 50
EJERCICIO 3:
NOTA: este ejercicio utiliza otras letras para denominar la ordenada en el origen (b) a la que aquí llama n
y otras variaciones no significativas.
Partimos de los siguientes datos y su representación:
Buscamos la recta que mejor se ajusta a las N medidas:
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 38 de 50
Podríamos presentar los datos y resultados en una tabla como la siguiente:
Y con los parámetros obtenidos siguientes:
y = 0,935x + 0,366
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 39 de 50
AJUSTE DE ECUACIONES A DATOS EXPERIMENTALES
MÉTODO DE LA MEDIANA SIMPLE
1. INTRODUCCIÓN.
Este método fue desarrollado con la finalidad de que los posibles puntos anómalos, recogidos
durante el trabajo experimental (los que se apartan de la linealidad), no afectasen a la tendencia general
de los datos. Genéricamente, los métodos insensibles a la presencia de puntos anómalos se denominan
métodos robustos.
2. PROCEDIMIENTO DE CÁLCULO:
Seguiremos las etapas siguientes:
a) Ordenar los puntos obtenidos. Calcular la pendiente mi de cada punto con respecto a
todo el resto de puntos.
b) Ordenar las pendientes mi calculadas. Definir como pendiente de la recta de ajuste la
mediana de la serie anterior:
mMS = med (mi)
c) A partir de la pendiente encontrada, calcular todas las posibles ordenadas en el origen bi.
Definir como ordenada en el origen de la recta de ajuste la mediana de la serie anterior.
bMS = med (bi)
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 40 de 50
EJEMPLO 1:
Mostrar la ecuación resultante, por medio de la mediana simple, de los siguientes datos:
PUNTO
A B C D E F
X 0 2 4 6 8 10
Y 0,1 8,0 15,7 24,2 31,5 33,0
Solución:
a) Representación gráfica de los datos:
Si representamos los datos como puntos dentro de una cuadrícula (figura siguiente) los observamos
detenidamente, podremos percatarnos como el punto (10 ; 33,0) no sigue la tendencia general del
conjunto. Incluirlo en el procesamiento de los datos mediante el método de los mínimos cuadrados
modificaría de forma importante la ecuación calculada.
0
5
10
15
20
25
30
35
40
0 2 4 6 8 10 12
X
Y
En el método de la mediana simple, que ahora estudiaremos, a pesar de incluir este punto en el
tratamiento, no se afectará a la ecuación final propuesta.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 41 de 50
b) Cálculo de las pendientes:
Los cálculos de las respectivas pendientes los efectuaremos ordenadamente en una matriz que
contendrá tantas filas y columnas como puntos.
El problema de cálculo se simplifica si tenemos en cuenta los siguientes aspectos:
- No tiene sentido calcular la pendiente de un punto con respecto a sí mismo (diagonal de
la matriz)
- Tampoco tendría sentido calcular la pendiente entre dos puntos j, i, si ya ha sido
evaluada la correspondiente pendiente entre los puntos i, j, porque es la misma.
Eso nos lleva a rellenar únicamente la parte situada por encima de la diagonal de la matriz.
A B C D E F
A ---- 3,95 3,90 4,02 3,93 3,29
B ---- ---- 3,85 4,05 3,92 3,12
C ---- ---- ---- 4,25 3,95 2,88
D ---- ---- ---- ---- 3,65 2,20
E ---- ---- ---- ---- ---- 0,75
F ---- ---- ---- ---- ---- ----
El cálculo de la pendiente entre dos puntos i, j se efectúa como:
ij
ijij xx
yym
−−
= ; jiij mm =
Por ejemplo, la pendiente entre los puntos A y B corresponde a:
m (A, B) = (8,0 – 0,1) / (2 – 0) = 3,95
Se puede comprobar como para N puntos resultan (N2 – N) / 2 posibles pendientes. En nuestro caso, 15
valores.
(N2 – N) / 2 = (62 – 6) / 2 = 15
La posición de la mediana dentro de una serie ordenada de valores corresponde en general a: (N + 1) /
2, en nuestro caso, en la octava posición. Ordenando todos los valores de mayor a menor,
0,75 2,20 2,88 3,12 3,29 3,65 3,85 3,90 3,92 3,93 3,95 3,95 4,02 4,05 4,25
Es decir:
mMS = 3,90
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 42 de 50
c) Cálculo de la ordenada en el origen:
Las ordenadas en el origen se calculan teniendo en cuenta que:
y = mx + b b = y – mx
x y bMS = y – (3,90 ∙ x)
0 0,1 0,10
2 8,0 0,20
4 15,7 0,10
6 24,2 0,80
8 31,5 0,30
10 33,0 - 6
Una vez ordenados estos valores tenemos:
- 6 0,10 0,10 0,20 0,30 0,80
La mediana de la serie está situada en la posición (6 + 1) / 2 = 3,5
Debemos calcular la media aritmética entre el tercer y el cuarto valor:
- 6 0,10 0,10 0,20 0,30 0,80
bMS = (0,10 + 0,20) / 2 = 0,15
Ahora solo nos queda escribir la ecuación de la recta calculada por el método de la mediana simple:
y = 0,15 + 3,90 x
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 43 de 50
EJEMPLO 2:
Encontrar la ecuación de ajuste, por el método de los mínimos cuadrados, del ejercicio anterior
y comparar el resultado con el método de la mediana simple:
Respuesta:
Efectuamos la representación de la recta con y sin el punto anómalo.
y = 3,4786x + 1,3571
R2 = 0,9758
0
5
10
15
20
25
30
35
40
0 2 4 6 8 10 12
X
Y
y = 3,95x + 0,1
R2 = 0,9996
0
5
10
15
20
25
30
35
0 1 2 3 4 5 6 7 8 9
X
Y
Claramente podemos concluir que la mejor recta de ajuste es la segunda y que el punto
anómalo no puede ser incluido
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 44 de 50
El método de la mediana simple proporciona una ecuación semejante (¡NO IDÉNTICA!) al
método de los mínimos cuadrados sin tener en cuenta el efecto del punto anómalo.
y = 3,4786x + 1,3571
y = 3,9x + 0,15
0
5
10
15
20
25
30
35
40
45
0 2 4 6 8 10 12
X
Y
MEDIANA SIMPLE MINIMOS CUADRADOS PUNTO ANÓMALO
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 45 de 50
EJERCICIO 1:
A partir de los siguientes datos mostrar la ecuación resultante por el método de MÍNIMOS CUADRADOS
y de MEDIANA SIMPLE.
A B C D E
X 10 20 40 60 80
Y 567 436 283 144 2
Solución ejercicio 1:
X Y
A 10 567
B 20 436
C 40 283
D 60 144
E 80 2
Representación gráfica:
Ajuste mínimos cuadrados con excel y fórmula:
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 46 de 50
Cálculo de cada una de las pendientes: ij
ijij xx
yym
−−
=
A B C D E
A
B -13,10
C -9,47 -7,65
D -8,46 -7,30 -6,95
E -8,07 -7,23 -7,03 -7,10
Ordenamos las pendientes y buscamos la mediana. Al ser un número par de pendientes, calcularemos la
mediana como la media de los valores intermedios.
-13,10 1 -13,10 -9,47 2 -9,47 -8,46 3 -8,46 -8,07 4 -8,07 -7,65 5 -7,65
-7,48 -7,30 6 -7,30
-7,23 7 -7,23 -6,95 8 -7,10 -7,03 9 -7,03 -7,10 10 -6,95
Obtenemos el primer valor para nuestra ecuación:
y = - 7,48 x + b
Sustituimos y calculamos el valor de la ordenada en el origen para cada par de datos:
X Y b = y + 7,48 x
A 10 567 642
B 20 436 586
C 40 283 582
D 60 144 593
E 80 2 600
Ordenamos el valor de b y obtenemos la mediana:
642 1 642 586 2 600 582 3 593 593
593 4 586 600 5 582
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 47 de 50
Tenemos el valor de nuestra ecuación:
y = - 7,48 x + 593
Ahora para los valores de “x” recalculamos con nuestra ecuación:
X Y = -7,48 x + 593
A 10 518,2
B 20 443,4
C 40 293,8
D 60 144,2
E 80 -5,4
Representamos la nueva ecuación junto a la anterior y a la de ajuste por mínimos cuadrados
Podemos observar como ahora hemos evitado el efecto del punto anómalo.
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 48 de 50
EJERCICIO 2:
A partir de las determinaciones siguientes calcular por el método de MÍNIMOS CUADRADOS y de
MEDIANA SIMPLE.
A B C D E
X 1,0 1,5 2,0 2,5 3,0
Y 3,0 3,5 5,4 6,9 8,4
Solución ejercicio 2:
x y
A 1,0 3,0
B 1,5 3,5
C 2,0 5,4
D 2,5 6,9
E 3,0 8,4
Representación gráfica:
Ajuste mínimos cuadrados con excel y fórmula:
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 49 de 50
Cálculo de cada una de las pendientes: ij
ijij xx
yym
−−
=
A B C D E
A 1 2,4 2,6 2,7
B
3,8 3,4 3,3
C
3 3
D
3
E
Ordenamos las pendientes y buscamos la mediana. Al ser un número par de pendientes, calcularemos la
mediana como la media de los valores intermedios.
1 1 3,8 2,4 2 3,4 2,6 3 3,3 2,7 4 3 3,8 5 3
3 3,4 6 3
3,3 7 2,7 3 8 2,6 3 9 2,4 3 10 1
Obtenemos el primer valor para nuestra ecuación:
y = 3 x + b
Sustituimos y calculamos el valor de la ordenada en el origen para cada par de datos:
X Y b = y – 3 x
A 1,0 3,0 0
B 1,5 3,5 -1
C 2,0 5,4 -0,6
D 2,5 6,9 -0,6
E 3,0 8,4 -0,6
Ordenamos el valor de b y obtenemos la mediana:
0 1 0 - 1 2 -0,6 -0,6 3 -0,6 - 0,6
-0,6 4 -0,6 -0,6 5 -1
TRATAMIENTO DATOS Y GRÁFICOS
GS – ENSAYOS FÍSICO-QUÍMICOS Pág. 50 de 50
Tenemos el valor de nuestra ecuación:
y = 3 x – 0,6
Ahora para los valores de “x” recalculamos con nuestra ecuación:
x y = 3 x – 0,6
A 1,0 2,4
B 1,5 3,9
C 2,0 5,4
D 2,5 6,9
E 3,0 8,4
Representamos la nueva ecuación junto a la anterior y la de mínimos cuadrados.
Podemos observar como ahora hemos evitado el efecto del punto anómalo.