Aplicación de Técnicas Estadísticas, Quimiométricas y ...
Transcript of Aplicación de Técnicas Estadísticas, Quimiométricas y ...
1
2
3
AUTOR: José María Villero Salas
http://orcid.org/0000-0002-9257-847X
EDITA: Publicaciones y Divulgación Científica. Universidad de Málaga
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional:http://creativecommons.org/licenses/by-nc-nd/4.0/legalcodeCualquier parte de esta obra se puede reproducir sin autorización pero con el reconocimiento y atribución de los autores.No se puede hacer uso comercial de la obra y no se puede alterar, transformar o hacer obras derivadas.
Esta Tesis Doctoral está depositada en el Repositorio Institucional de la Universidad de Málaga (RIUMA): riuma.uma.es
5
6
7
8
9
ÍNDICE GENERAL
Objetivo……………………………………………………………………………. 13
Capítulo 1. Introducción
1. QUIMIOMETRÍA……………………………………………………………… 19
1.1. Análisis de componentes principales (ACP)
1.2. Análisis discriminante lineal (ADL)
1.3. Análisis de conglomerados (cluster analysis)
2. LUMINOMETRÍA ATP………………………………………………………. 36
3. CUALIMETRÍA……………………………………………………………….…. 41
3.1. Introducción
3.2. Control de calidad interno
3.3. Medidas repetidas o precisión de la repetibilidad
3.4. Control de calidad interno (IQC) y precisión análisis a
análisis
3.5. Empleo de muestras de control
3.6. Control de calidad externo
3.7. Determinación del valor asignado y su incertidumbre
estándar
3.8. Valores consensuados por laboratorios participantes
3.9. Puntuación de ensayos de aptitud (evaluación del
desempeño)
3.10. Cálculo de los indicadores de desempeño
3.11. Tratamiento de puntos anómalos o aberrantes (outliers)
3.12. Métodos gráficos para combinar puntuaciones del
desempeño en varios mensurandos en una ronda de un
ensayo de aptitud
10
3.13. Métodos gráficos para combinar puntuaciones de
desempeño en varias rondas de un esquema de un ensayo
de aptitud.
4. ANÁLISIS SENSORIAL…………………………………………………….... 72
5. TENDENCIAS FUTURAS……………………………………………………. 76
Capítulo 2. Tratamiento previo de datos
1. INTRODUCCIÓN……………………………………………………………… 91
2. CIFRAS SIGNIFICATIVAS, REDONDEO Y ANÓMALOS……...... 92
2.1. Cifras significativas
2.2. Redondeo
2.3. Tratamiento de datos anómalos, aberrantes (outliers)
1.1.1. Test Q de Dixon
1.1.2. Test G de Grubbs
1.1.3. Otros tests
3. DATOS DEL CAPÍTULO 3………………………………………………….. 98
3.1. Cifras significativas
3.2. Redondeo
3.3. Tratamiento de datos anómalos
4. TRATAMIENTO DE DATOS DEL CAPÍTULO 4…………………….. 99
4.1. Cifras significativas y lugares decimales
4.2. Redondeo
4.3. Tratamiento de datos anómalos
5. TRATAMIENTO DE DATOS DEL CAPÍTULO 5……………………… 100
5.1. Cifras significativas y lugares decimales
5.2. Redondeo
Capítulo 3. Tratamientos quimiométricos de datos físico-químicos
de diferentes muestras de cerveza.
11
1 PARÁMETROS ANALÍTICOS SELECCIONADOS…………………. 113
2 ANÁLISIS DISCRIMINANTE LINEAL (ADL)………………………… 115
2.1. Cervezas tipo Pils Lager 5,6 y Strong Lager 2.2. Cervezas con recorrido de alcohol entre 3,0% y 5,0% 2.3. Cervezas de todo recorrido de alcohol 2.4. Discriminación entre diferentes fábricas de un mismo tipo de
cerveza 2.5. Cervezas de mercado
3 COMPARATIVA PROGRAMAS ESTADÍSTICOS …..…………… 166
4 ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS)……. 174
4.1. Cervezas Pils 5,6 y Pils Strong Lager 4.2. Cervezas con recorrido de alcohol entre 3,0% y 5,0% 4.3. Cervezas con todo recorrido de alcohol 4.4. Mismo tipo de cerveza producida en diferentes fábricas 4.5. Diferentes marcas del mercado
Capítulo 4. Tratamientos estadísticos y quimio-métricos de datos
procedentes de análisis por luminometría ATP o bioluminiscencia
y análisis microbiológico convencional
1 INTRODUCCIÓN……………………………………………………………… 191
2 ANÁLISIS DE SUPERFICIES POR LUMINOMETRÍA ATP……… 194
2.1 Análisis estadístico básico 2.2 Estudios quimiométricos
3 ANÁLISIS MICROBIOLÓGICOS CONVENCIONALES…………… 225
Capítulo 5. Tratamientos cualimétricos de datos físico-químicos.
1 INTRODUCCIÓN……………………………………………………………… 243
2 CONTROL DE CALIDAD INTERNO……………………………………. 244
2.1. Medidas repetidas o precisión de la repetibilidad 2.2. Control de la repetibilidad mediante regresión
12
3 CONTROL DE CALIDAD EXTERNO…………………………………….. 251
3.1. Datos de trabajo en ensayos de aptitud externos 3.2. Ensayos de aptitud internos
Capítulo 6. Tratamientos quimiométricos de los resultados de
análisis sensoriales.
1. INTRODUCCIÓN………………………………………………………………. 305
2. TRATAMIENTO DE DATOS SENSORIALES…………………………. 306
2.1. Análisis de componentes principales 2.2. Análisis discriminante lineal 2.3. Cervezas varias de mercado
Conclusiones………………………………………………………………………. 325
13
OBJETIVO DE LA TESIS DOCTORAL
Las técnicas estadísticas, fundamentalmente en el campo de la Quimiometría y el de la Cualimetría, cada vez son más utilizadas para explicar situaciones que antes difícilmente eran explicables. El auge de la Quimiometría con procedimientos matemáticos muy complejos y en los que es necesario el uso de ordenadores y software específicos, ha hecho constituirse como una herramienta cada vez más fundamental a la hora de interpretar fenómenos de otra manera inexplicables.
La Química Analítica debe hacer uso de estas técnicas que no suponen grandes sobrecostes en aparataje de medición y que, en cambio, están proporcionando caminos nuevos en su aplicación diaria.
El objetivo fundamental de esta Tesis es el desarrollo de estas técnicas para el reconocimiento de pautas (supervisadas o no) en los datos físico-químicos, microbiológicos y sensoriales rutinarios de un laboratorio cervecero y la consiguiente optimización de recursos analíticos en el laboratorio, así como encontrar explicación en determinados sucesos. Se establecerán pautas de uso de las distintas técnicas así como una comparativa entre la multitud de programas de software estadísticos comerciales que nos darán los pros y contras de cada uno de ellos.
Estos procedimientos se aplicarán tanto a datos físico-químicos como microbiológicos y, por último, a resultados de análisis sensorial, muy usado en estos últimos años por la posibilidad de extraer información que, de otra manera, permanecería oculta en una visión normal.
14
15
CAPÍTULO 1 Introducción
16
17
ÍNDICE 1 QUIMIOMETRÍA
1.1 Análisis de componentes principales (ACP) 1.2 Análisis discriminante lineal (ADL) 1.3 Análisis de conglomerados (cluster analysis)
2 LUMINOMETRÍA ATP 3 CUALIMETRÍA
3.1 Introducción 3.2 Control de calidad interno 3.3 Control de calidad externo
4 ANÁLISIS SENSORIAL 5 TENDENCIAS FUTURAS
18
19
1 QUIMIOMETRÍA La estadística aplicada se ha llegado a convertir hoy en una
herramienta imprescindible en multitud de ámbitos. Su aplicación va desde las ciencias sociales a las médicas y tiene una muy amplia aceptación y uso en el ámbito científico-técnico.
Dentro de este ámbito, quizá donde más se ha desarrollado es en el de la Química, transformando su nombre y pasando a ser “Quimiometría” (medida de la química), es decir aquella disciplina dentro de la química que utiliza métodos matemáticos y estadísticos para diseñar o seleccionar procedimientos de medida y experimentos óptimos. Este término lo acuñó en 1972 Svante Wold, profesor de química orgánica en la universidad de Umea (Suecia) a la sombra de las primeras computadoras que se usaron en el campo de la investigación científica. Poco tiempo después, junto a Bruce Kowalski (profesor de química analítica en la universidad de Washington, Seattle) crean la International Chemometrics Society.
D.L. Massart, el primer autor de un libro sobre quimiometría, la describe como “una disciplina química que usa las matemáticas, la estadística y la lógica formal para diseñar o seleccionar procedimientos de experimentación óptimos; proveer la máxima información química relevante analizando los datos químicos y obtener conocimiento de los sistemas químicos”.1
1 D.L. Massart en Handbook of Chemometrics and Qualimetrics: Part A, Ed. Elsevier,
2003, pag. 1
Quimiometría
20
1.1 Análisis de componentes principales (ACP)
El concepto de componentes principales es muy importante en Quimiometría. Los métodos de modelado suaves y los métodos de calibración multivariante se basan en ellos.
Cada vez se usan con más frecuencia equipos analíticos que producen una enorme cantidad de datos (HPLC, GC, FT-IR, ICP-AES, UV-Vis, etc.). Esto hace necesario usar métodos matemáticos que sean capaces de tratar esos miles de datos producidos. Una gran ayuda para estos casos es el uso de potentes ordenadores, hoy bastante económicos y técnicas estadísticas modernas como las quimiométricas.
Un camino obvio de organizar los datos descritos es construir una tabla, en la que n objetos forman las filas y m variables las columnas. Los datos, en términos quimiométricos forman una matriz y muchos de los cálculos se basan en álgebra matricial. Son tablas de doble entrada. Los datos de una matriz de datos también se llaman multivariantes o multidimensionales.
Cuando se dice que los componentes principales se usan para la reducción de características significa que el análisis de componentes principales (ACP) reduce el número de variables de alguna forma. El problema es encontrar combinaciones lineales de las variables originales. Este término no se debe confundir con selección de características. Esto significa que se seleccionan algunas variables. En el análisis de componentes principales, la reducción de variables se produce debido a las combinaciones lineales. El ACP simplifica de alguna manera la presentación de datos.
A los químicos nos gusta dibujar gráficos para comprender mejor los datos de que disponemos. Supongamos que un químico ha determinado la concentración de una sola sustancia en unas cuantas muestras. La concentración x1, se considera la variable o característica a dibujar.
Del dibujo resultante, mostrado en la Figura 1.1, se deduciría que las muestras se distribuyen en dos grupos. Este gráfico es un gráfico unidimensional y los datos se llaman univariantes.
Análisis de componentes principales (ACP)
21
Figura 1.1. Gráfico unidimensional Habitualmente, se suele medir más de una variable con la
esperanza de obtener más información. Cuando se miden dos variables, x1 y x2, se pueden dibujar en un plano las muestras x1 frente a x2 como en la figura 1.2.
El gráfico bidimensional y los datos pasan a llamarse ahora bivariantes. Hay gráficos posibles en tres dimensiones (Figura 1.3). El número de dimensiones es igual al número de variables medidas para cada muestra u objeto. De aquí se deduce que los datos de una matriz de datos en la que se han medido m variables para cada muestra, son m-dimensionales. Se llaman multivariantes y para visualizarlas necesitaríamos gráficos m-dimensionales. Como esto no es posible porque hay más de tres dimensiones, debemos reducir el número de características a tres o menos.
Antes de investigar cómo reducir características de espacio m-dimensional a dos o tres dimensiones, consideremos el caso más simple de una posible reducción de características: la situación donde se presentan dos variables y queremos reducirlas a una.
Diagrama de Puntos
1,1 1,5 1,9 2,3 2,7 3,1 3,5
X1
0
6
Análisis de componentes principales (ACP)
22
Figura 1.2. Gráfico bidimensional
Figura 1.3. Gráfico tridimensional
1,1 1,5 1,9 2,3 2,7 3,1 3,5
X1
1,2
1,6
2
2,4
2,8
3,2
3,6
X2Gráfico de X2 vs X1
1,1 1,5 1,9 2,3 2,7 3,1 3,5
X1
1,21,6
22,4
2,83,2
3,6
X2
1,1
1,5
1,9
2,3
2,7
3,1
X3
Gráfico de X3 vs X1 y X2
Análisis de componentes principales (ACP)
23
Imaginemos que sólo vemos en una dimensión. Esto significa que no estaríamos preparados para percibir visualmente la estructura de los datos bidimensionales en la Figura 1.4.
La solución más obvia sería proyectar los puntos del espacio bidimensional (plano) al espacio unidimensional de una línea. La dirección de esa línea es importante.
En la Figura 1.4 las proyecciones sobre la línea no dan mucha información sobre la estructura de los datos originales. Por ejemplo no es posible observar que hay dos grupos de datos de las proyecciones, las cruces a lo largo de la línea. En la Figura 1.5 las proyecciones nos permiten observar la característica más importante de la estructura de los datos: dos grupos de cruces presentes bien diferenciados con claridad. Una buena dirección para dibujar la línea es a lo largo del eje de mayor variación de los datos.
Esta línea se llama primera componente principal, PC1. Podemos decir que PC1 explica la mayor variación posible en los datos, por lo tanto, PC1 presenta más información. Las proyecciones de los puntos del espacio original (X1, X2) sobre PC1 se llaman puntuaciones, de los objetos, sobre PC1. Los objetos se dispersan alrededor de la línea PC. Los residuales, ri, expresan la variación inexplicable o restante. Esta variación la podemos expresar sobre un segundo eje, por definición ortogonal al primero, en el que también se proyecte los datos del espacio original. Esta sería la segunda componente principal, PC2 (Figura 1.6) y las proyecciones son las puntuaciones de los objetos sobre PC2.
PC1 y PC2 se pueden considerar como los nuevos ejes en el mismo espacio bidimensional. Si trabajamos en datos centrados en medias, el origen del nuevo sistema de coordenadas se traslada a una localización más natural, llamada baricentro o centro de masas de los datos (el baricentro es la coordenada que se corresponde con la media para cada variable). Se pueden dibujar
Análisis de componentes principales (ACP)
24
las puntuaciones de los objetos sobre PC1 frente a los de PC2, como podemos ver en la Figura 1.7 para los objetos presentes originalmente en las coordenadas (X1, X2).
Figura 1.4. Proyección de dos a una dimensión
Figura 1.5. Proyección de dos a una dimensión en otra dirección
Análisis de componentes principales (ACP)
25
Figura 1.6. Proyección de dos a una dimensión
Figura 1.7. Gráfico de componentes principales. Proyecciones de los objetos en el nuevo sistema de coordenadas
Análisis de componentes principales (ACP)
26
Los dos grupos de objetos que pueden distinguirse en el espacio x1-x2 también pueden verse en el espacio bidimensional PC1-PC2.
Si volvemos a la suposición inicial de ver sólo a lo largo de una dimensión, podríamos elegir a lo largo de PC1 y se obtendría el resultado de la Figura 1.8 donde las cruces son las puntuaciones y por tanto las proyecciones del espacio original X1, X2) sobre PC1.
Figura 1.8. Reducción a una sola componente principal
Nos transmiten tanta información como el gráfico original x1-x2.
La reducción de características ha tenido éxito ya que se redujo el número de variables de dos (X1 y X2) a una, llamada PC1, sin pérdida significativa de información. PC1 se puede describir como una nueva y tal vez más fundamental variable que las variables originales, x1 y x2, de forma separada. PC1 se llama variable latente en contraste a x1 y x2, variables manifiestas.2 En este caso, PC2 expresa esencialmente ruido. Podemos separar la información (PC1) del ruido (PC2).
No hay que olvidar que el análisis de componentes principales (ACP) es una técnica para reducir la cantidad de datos cuando está presente la correlación.3 No es una técnica útil cuando las variables no están correlacionadas.
2 D.L. Massart y otros en Handbook of Chemometrics and Qualimetrics: Part A, 1997,
Ed. Elsevier, pag. 521-523. 3 J.N. Miller, J.C. Miller en Estadística y Quimiometría para Química Analítica, 2000, Ed.
Prentice Hall, pag. 224-228.
Análisis de componentes principales (ACP)
27
La idea es encontrar componentes principales que sean combinaciones lineales de las variables originales. Las componentes principales forman ángulos rectos unas con otras. Esta propiedad se conoce con el nombre de ortogonalidad.
Antes de llevar a cabo un análisis de componentes principales hay que decidir si se estandarizan las variables o no. Si no se estandarizan se corre el riesgo de que alguna variable tenga la varianza mucho más grande y controle la primera componente principal. La estandarización lo evita haciendo que todas las variables tengan el mismo peso.
En términos matemáticos las componentes principales son los autovectores o vectores propios de la matriz de correlación y la técnica para encontrar estos autovectores se llama análisis propio. A cada componente principal (autovector) le corresponde un autovalor que proporciona la cantidad de varianza en el conjunto de datos que se encuentra explicada por esa componente principal.
El análisis de componentes principales no supone que los datos tengan una distribución concreta. Se puede utilizar para reducir la dimensionalidad de un conjunto de datos y revelar conglomerados.
¿Con cuántas componentes principales nos quedamos? Esta pregunta no tiene una respuesta definida. Hay que considerar cosas tales como la varianza explicada de la muestra total, los tamaños relativos de los autovectores (varianzas de las componentes de la muestra) y las interpretaciones de las componentes. Para determinar un número apropiado de componentes principales, se usa un gráfico de sedimentación.4 En él, los autovectores se encuentran ordenados desde el más grande al más pequeño.
4 R.A. Johnson, D.W. Wichern en Applied multivariate statistical analysis, 2007, Ed.
Pearson Prentice Hall, 6th
edition, pág. 445.
Análisis de componentes principales (ACP)
28
Análisis de componentes principales (ACP)
En la Figura 1.9 tenemos un ejemplo de gráfico de sedimentación con 6 componentes principales. En él se ve con claridad que las componentes principales más importantes son las 3 primeras. A partir de la cuarta, la mejora de la información relevante no es tan importante y podrían ser desechados. En el gráfico se representan el número de componentes frente al valor del autovector correspondiente o frente al porcentaje de varianza explicada de la muestra total. En este caso es el valor del autovector.
Figura 1.9. Gráfico de sedimentación de componentes principales
Cabe destacar, como ejemplo, el estudio realizado por L. Vera y otros sobre cervezas procedentes de 4 fábricas distintas usando datos de MS nariz electrónica, lengua óptica de IR, espectrofotometría UV-Visible y aplicando técnicas de ACP
Gráfica de Sedimentación
0 3 6 9 12 15
Componente
0
1
2
3
4
5
Eig
en
va
lor
29
Análisis de componentes principales (ACP)
(análisis de componentes principales) y ADL (análisis discriminante lineal).5
Otro estudio que usa componentes principales es el realizado por F. Bühligen6 y otros sobre el envejecimiento replicativo y estado de población durante la resiembra en serie de levadura en tres fábricas distintas, con la misma cepa de levadura pero diferentes orígenes abióticos y regímenes de resiembra con diferente número de usos usando los perfiles de expresión de los genes.
S. Grassi7 y otros, han estudiado el ACP y otras técnicas quimiométricas como mínimos cuadrados parciales (PLS) y regresión ponderada localmente (LWR) aplicado a los datos procedentes de espectroscopía FT-NIR, como herramientas de control de calidad en el proceso de fermentación de la cerveza.
J.L. Gonçalves8 y otros, han estudiado datos obtenidos por HS-SPME (espacio de cabeza dinámico con micro extracción en fase sólida) seguido de GC-qMS por ACP y les ha permitido crear patrones metabolómicos volátiles derivados de materias primas de cerveza, algunos de los cuales pueden influir en el aroma del producto final.
1.2 Análisis discriminante lineal (ADL)
Esta técnica quimiométrica forma parte de los llamados métodos de reconocimiento de pautas supervisado o análisis clasificatorio.
Se empieza con una serie de objetos cuya pertenencia a un grupo es conocida, objetos que se llaman de entrenamiento o
5 L. Vera y otros, Talanta, 2011, 87, 136-142
6 F. Bühligen y otros, J. of Biotechnology, 2014, 187, 60-70.
7 S. Grassi y otros, Food Chemistry, 2014, 155, 279-286.
8 J.L. Gonçalves y otros, Food Chemistry, 2014, 160, 266-280.
30
Análisis discriminante lineal (ADL)
aprendizaje.9 Después se utilizan estos objetos para encontrar una regla de asignación que sirva para que un nuevo objeto desconocido sea asignado al grupo correcto.
El análisis discriminante lineal es el método de reconocimiento de pautas más estudiado.10
Fue propuesto originalmente por Fisher11 y se aplica en quimiometría con mucha frecuencia.
Si consideramos el caso más simple, la separación de dos clases diferentes, dibujando la distribución de puntos de las dos clases en un gráfico de X1 frente a X2, donde éstas son dos características cualesquiera de las dos clases (Figura 1.10). Cada clase procede de una distribución normal, que estará separada en el eje de la variable X2 (Figura 1.11).
Podemos decir que las dos clases se pueden distinguir usando una sola variable X2. La discriminación será mejor cuando la distancia entre y es mayor y la anchura de la distribución es pequeña, es decir cuando la razón de la diferencia entre las medias sobre la varianza de la distribución es grande. Al químico analítico le interesa que la resolución sea la mayor posible.
Cuando se contempla la situación con dos variables, X1 y X2, es evidente que el poder discriminante de las variables combinadas será bueno cuando los centroides de los dos grupos de datos están suficientemente distanciados uno del otro y los conglomerados son apretados o densos.12 En términos matemáticos esto significa que las varianzas entre grupos son grandes comparadas con las varianzas dentro de grupos.
9 J.N. Miller, J.C. Miller en Estadística y Quimiometría para Química Analítica, 2000, Ed.
Prentice Hall, pag. 232-236. 10
D.L. Massart en Handbook of Chemometrics and Qualimetrics: Part B, Ed. Elsevier, 1998, pag. 213 11
R. Fisher, Annals of Eugenics, 1936, 7, 179-188. 12
D.L. Massart en Chemometrics: a textbook, Ed. Elsevier, 1988, pag. 388
31
Análisis discriminante lineal (ADL)
Figura 1.10. Separación de dos clases, K y L, en un espacio
bidimensional Si las dos variables están muy correlacionadas, el beneficio de
añadir una segunda variable es verdaderamente pequeño. Cuando dos variables están completamente correlacionadas, la segunda no es de gran ayuda y se puede eliminar. Por tanto se suele trabajar con tres parámetros matemáticos: la varianza entre grupos, varianza dentro de grupos y correlación entre las variables químicas.
En el análisis discriminante se utiliza un algoritmo que busca las funciones o vectores discriminantes, combinaciones lineales (ADL) o cuadráticas (ADC) de las variables manifiestas que maximizan la varianza entre categorías, a la vez que minimizan las varianzas intra-categorías. Para construir el modelo, es necesario asignar a una categoría dada los objetos del conjunto de entrenamiento. Para ello, se añade una variable categórica a la matriz de datos conteniendo tantas categorías como sean necesarias.
32
Análisis discriminante lineal (ADL)
Figura 1.11. Clases K y L en un espacio bidimensional y su
proyección sobre X2 El ADL estima los coeficientes a1, a2, a3,…, am, de la función
discriminante lineal, f:
es decir:
Si existen tres categorías, se deben construir dos funciones discriminantes f1 y f2.
33
Análisis discriminante lineal (ADL)
La función discriminante es la dirección del espacio en la que los grupos se ven más separados entre sí, y al mismo tiempo, los puntos de un mismo grupo están más compactados.13
Esta aproximación es comparable a los componentes principales, donde se busca la línea que mejor explique la variación de los datos. La línea de componentes principales suele coincidir con la línea discriminante.
Un ejemplo muy detallado del uso del análisis discriminante y una variante semi-supervisada de Fisher es el trabajo de D. Toher14 y otros donde se comparan los resultados de los dos procedimientos sobre datos de diferentes vinos y carnes.
El uso de software estadístico es imprescindible cuando se trabaja con varias variables por la complejidad de los cálculos matemáticos.
1.3 Análisis de conglomerados (cluster analysis)
El análisis de conglomerados o cluster analysis es una técnica estadística multivariante que ayuda a buscar estructuras naturales entre las observaciones y está basado en un perfil multivariante cuyo principal propósito es agrupar objetos basándose en las características que poseen.15
Se usa para clasificar objetos, caracterizados por los valores de un juego de variables, dentro de los grupos. Es una alternativa al análisis de componentes principales y sirve para describir la estructura de una tabla de datos.
13
G. Ramis Ramos, Mª Celia García Álvarez-Coque en Quimiometría, Ed. Síntesis, 2001, pag. 185 14
D. Toher, G. Downey, T.B. Murphy, J. of Chemometrics, 2011, 25, 621-630. 15
Hair, Anderson,, Tatham, Black en Análisis multivariante, Ed. Pearson Prentice Hall, 2008
34
Análisis de conglomerados (cluster analysis)
Este análisis agrupa a los individuos y a los objetos en conglomerados, de tal forma que los objetos del mismo conglomerado son más parecidos entre sí que a los objetos de otros conglomerados. Se intenta maximizar la homogeneidad de los objetos dentro de los conglomerados mientras se maximiza de manera simultánea la heterogeneidad entre los agregados.
Este tipo de clasificación se usa con frecuencia en muchas áreas científicas como la botánica, astronomía, zoología.
Este análisis es descriptivo, no teórico y no inferencial. No tiene bases estadísticas sobre las cuales deducir inferencias estadísticas para una población a partir de una muestra. Se utiliza fundamentalmente como técnica exploratoria. Las soluciones no son únicas, en la medida en la que la pertenencia al conglomerado para cualquier número de soluciones depende de muchos elementos del procedimiento y se pueden obtener muchas soluciones diferentes variando uno o más de estos elementos. Siempre creará conglomerados, a pesar de la existencia de una auténtica estructura en los datos. La solución del análisis es totalmente dependiente de las variables utilizadas como base para la medida de similitud. La adición o eliminación de variables relevantes puede tener un impacto substancial sobre la solución resultante, por tanto hay que tener especial cuidado en evaluar el impacto de cada decisión implicada en el desarrollo del análisis.
1.3.1 Medición de la similitud
En el método de Ward, la distancia entre dos conglomerados es la suma de los cuadrados entre dos conglomerados sumados para todas las variables. En cada paso del procedimiento se minimiza la suma de los cuadrados dentro del conglomerado para todas las particiones obtenidas mediante la combinación de dos conglomerados en un paso previo. Este procedimiento tiende a combinar los conglomerados con un número reducido de observaciones. Se suele utilizar cuando tenemos
35
Análisis de conglomerados (cluster analysis)
aproximadamente el mismo número de observaciones en cada grupo.
1.3.2 Medida de la distancia
Existen varias medidas de distancia. La más utilizada es la distancia euclídea, basada en el cálculo geométrico de la distancia entre dos puntos del sistema euclídeo:
En algunos casos, se quiere dar más peso a algunas variables. Para esto se utiliza la distancia euclídea ponderada:
Con
Además de esta medida, existe la euclídea cuadrada:
36
Análisis de conglomerados (cluster analysis)
Que al no utilizar la raíz cuadrada acelera los cálculos y es la medida de distancia recomendada para los métodos del centroide y Ward.
Y el bloque habitacional, que no tiene en cuenta los signos:
Para este análisis es fundamental estandarizar los datos cuando hay grandes diferencias numéricas absolutas entre ellos, así todos pesan en la misma escala y no introducimos diferencias enormes que podrían hacer agrupar los conglomerados de forma incontrolada.
R. Rendall16 y otros realizan un estudio con apoyo en análisis de componentes principales y análisis de conglomerados de la evolución de la fracción volátil en función de las condiciones de almacenamiento de varios tipos de cervezas comerciales portuguesas.
2 LUMINOMETRÍA ATP
Técnica también llamada Bioluminiscencia por ATP, se basa en la detección del ATP (adenosin trifosfato), molécula energética que se encuentra en todos los organismos vivos.
Esta técnica fue introducida por la NASA en 1960 como posible medida para detectar vida en otros planetas y como medida
16
R. Rendall y otros, Chemometrics and Intelligent Laboratory Systems, 2015, 142, 131-142.
37
Luminometría ATP
preventiva de contaminación en el agua reciclada durante los largos viajes al espacio.
La Bioluminiscencia es un fenómeno natural que ocurre en muchas algas y bacterias acuáticas, y en la luz producida por las luciérnagas que es lo que ha hecho evolucionar esta tecnología. Las luciérnagas poseen una enzima llamada Luciferín-luciferasa que al combinarse con el ATP produce luz.
El Adenosín Trifosfato (ATP), es la llamada “molécula energética”, un compuesto presente en todos los seres vivos, animales y plantas, incluyendo gran número de alimentos y
residuos de alimentos, bacterias, hongos y otros microorganismos. La cantidad de ATP puede usarse como indicador de la cantidad de tales sustancias sobre las superficies en contacto con los alimentos, proporcionando así una medida de su estado de limpieza y de la eficiencia de los procesos de limpieza, detergentes y desinfectantes.
El equipo Biotrace Uni-Lite Xcel es un Sistema de diagnóstico directo de higiene por frotis (Direct Hygiene Swab Testing System), incluye todo el conjunto de reactivos, proporcionando todos los
38
Luminometría ATP
componentes necesarios para la medida del ATP, según la reacción química:
La reacción se produce en dos pasos: el sustrato se combina con el ATP y el oxígeno, que es controlado por la enzima. La energía química en el paso 1 excita una molécula específica (la combinación de luciferina y luciferasa). El resultado es la decadencia que se manifiesta como la emisión de fotones, o la producción de luz. La luz es simplemente un subproducto de la reacción química.
Todos los reactivos necesarios se encuentran en el mismo bastoncillo que se va a usar de frotis, de tal manera que, sin grandes complicaciones para el analista, se lleva a cabo la recogida de la muestra de superficie con el bastón y sin prácticamente manipulación (por tanto sin contaminación cruzada), se obtiene el resultado midiendo la luz a 560 nm en el analizador.
El bastoncillo lleva incluido, en compartimentos diferenciados, los reactivos necesarios para llevar a cabo la reacción anterior sin posibilidad de contaminación cruzada y se mide directamente en el equipo de bioluminiscencia.
La intensidad de la luz emitida por la muestra colocada en el equipo, se muestra en la pantalla digital en forma de Unidades Relativas de Luz (RLU). Dicho valor es directamente proporcional a la cantidad de ATP existente en la muestra, y por tanto en la superficie analizada. Los luminómetros pueden medir ATP a niveles inferiores a 0,1 fmol.
39
Luminometría ATP
La presencia de ATP en una superficie indica una limpieza inadecuada y la presencia de contaminación, incluidos los residuos de alimentos, alérgenos, bacterias. Esto implica un potencial de la superficie para albergar y apoyar el crecimiento bacteriano. Esta presencia de ATP residual puede tener diversos orígenes. Este sistema mide el ATP total asegurando un control amplio de la higiene puesto que detecta contaminación de la superficie tanto de origen microbiano como no microbiano, cuyo origen puede ser el producto o restos del mismo. Si no se controla este último origen (producto o restos de producto) la presencia de contaminación puede conducir a un rápido crecimiento de microorganismos y a la aparición de un riesgo higiénico importante como apariciones de biofilm. Las medidas de ATP con este sistema proporcionan una detección precoz de tales contaminaciones sobre las superficies, indicando bien la presencia de organismos bien la de los residuos de producto que no han sido correctamente eliminados.
Se forma biofilm cuando los microorganismos encuentran un ambiente receptivo donde están expuestos a alimentos y humedad. Los microorganismos trabajan juntos como una población y segregan un polímero pegajoso para formar una matriz sólida unida a una superficie. Una vez establecido el biofilm es muy difícil de eliminar, debido a que los microorganismos están reforzados y protegidos por la matriz, por lo que son muy resistentes a los desinfectantes. Los biofilms son a menudo responsables de la mala calidad del producto, producto perdido debido a la contaminación, causando daños costosos tanto para el
40
Luminometría ATP
producto como para el equipo. La amenaza de un biofilm puede eliminarse con un control adecuado de higiene ATP, lo que permite la detección precoz y la eliminación de los residuos de producto eliminando así la fuente de alimento para los posibles microorganismos formadores de biofilm. Además, los hisopos suelen llevar un detergente en la punta del hisopo que corta a través del biofilm y expone al aire las células subyacentes. Si se ha desarrollado un biofilm, habrá más ATP sobre una superficie, lo que resultará en un valor superior de RLU
Las pruebas de ATP deben realizarse después de cada limpieza, pero antes de la desinfección. Debido a que los desinfectantes son menos eficaces cuando los residuos de productos están en la superficie, lo mejor es eliminar todo ATP residual presente antes de la etapa de desinfección.
La técnica es viable en el uso preventivo ya que se obtienen resultados en 10 segundos. Este hecho revoluciona el mundo de la higiene de superficies ya que hasta entonces sólo se podían realizar análisis correctivos, que marcaban tendencias de efectividad de limpieza y siempre a posteriori. Con esta técnica, podemos tener en el resultado en tiempo real y realizar un nuevo proceso de limpieza hasta que se obtengan los resultados deseados.
El kit donde se encuentra el hisopo es algo complejo y se
compone de:
41
Luminometría ATP
- Enzima Luciferín-Luciferasa liofilizada en forma de píldora dentro de un compartimiento sellado
- Hisopo de algodón pre-humedecido con un extractante tensioactivo cuya misión es la de ayudar a recoger restos de suciedad en la superficie a analizar y la de romper las células bacterianas para liberar el ATP de las mismas.
- Diluyente para facilitar la solución de la enzima con el ATP extraído y facilitar su lectura.
3 CUALIMETRíA
Disciplina científica que trata de determinar cuantitativamente la calidad. La cualimetría está enfocada fundamentalmente al aseguramiento cuantitativo de la calidad. El término cualimetría se usó por primera vez en 1968 y se ha ido admitiendo de forma gradual en los vocabularios científicos y de ingeniería habiendo hoy decenas de miles de referencias al término en publicaciones científicas de más de 32 idiomas. En esta tesis se va a enfocar expresamente al aseguramiento de la calidad de las medidas analíticas.
Disciplina tan extensa como la quimiometría en cuanto a número de procedimientos o métodos estadísticos empleados no sólo tiene disponibles métodos ya vistos anteriormente en quimiometría sino también métodos propios. Esta disciplina se encuentra bastante regulada y existen normas de estandarización de los procedimientos a utilizar según qué objetivos conseguir.
3.1 Introducción
En este capítulo vamos a tratar todo lo relacionado con la calidad de las medidas que se producen de forma rutinaria en un
42
Cualimetría
laboratorio del sector cervecero, fundamentalmente centrado en los ensayos de aptitud (Proficiency Testing) y sus sistemas de control y seguimiento numéricos y gráficos con la aplicación de las principales normas internacionales sobre ensayos de aptitud:
- ISO 13528:2005 Statistical methods for use in proficiency testing by interlaboratory comparisons
- ISO 5725-2:1994 Accuracy (trueness and precision) of measurement methods and results -- Part 2: Basic method for the determination of repeatability and reproducibility of a standard measurement method
- Eurachem, Selection, use and interpretation of Proficiency Testing (PT) Schemes, second edition 2011
- The International Harmonized Protocol for the Proficiency Testing of Analytical Chemistry Laboratories (IUPAC technical report).
- ISO/IEC Guide 43-1:1997 Proficiency testing by interlabo-ratory comparisons -- Part 1: Development and operation of proficiency testing schemes
Un laboratorio de control de calidad controla no sólo la calidad de un producto, también controla la calidad del proceso y la calidad de las medidas analíticas que se obtienen. En el laboratorio se dispone de muchas herramientas englobadas en dos tipos de control de calidad, el interno y el externo.
43
Cualimetría
3.2 Control de calidad interno
3.2.1 Medidas repetidas o precisión de la repetibilidad
Las medidas repetidas, sobre un mismo parámetro analítico y misma muestra, se suelen utilizar para estimar o controlar la variación de la repetibilidad. El estadístico usado es la diferencia entre las medidas duplicadas. Para esto, es necesario conocer cómo depende la precisión de la concentración del analito, en muchos casos se conoce por ensayos de laboratorios de referencia, pero en otros no. Los gráficos de las diferencias absolutas frente a la concentración pueden usarse como gráficos de control de Shewhart y utilizar líneas de control para una precisión de la repetibilidad conocida.
Las condiciones de repetibilidad de la precisión se definen como aquellas bajo las cuales se realizan réplicas de medidas sobre el mismo material de ensayo, por el mismo analista y usando el mismo método, equipo y lote de reactivos y dentro de un “corto” período de tiempo.
Este indefinido “corto” período de tiempo puede interpretarse como la duración de un proceso analítico, un período continuo que incluyen algunas o muchas medidas durante las cuales los factores que contribuyen a la magnitud de los errores se considera que permanecen constantes.17
Naturalmente, las condiciones nunca permanecen constantes y se pueden esperar algunos cambios sistemáticos en un proceso analítico típico. El efecto de cambios de este tipo no detectados puede gestionarse realizando la secuencia de análisis en orden aleatorio. Los errores se pueden observar como parte de la variación de la repetibilidad.
17
M. Thompson, P.J. Lowthian en Notes on Statistics and Data Quality for Analytical Chemists, Ed. Imperial College Press, 2011, pag. 190
44
Cualimetría
En cualquier suceso, la desviación estándar de la repetibilidad ( r) es de uso limitado para los químicos analíticos ya que suele ser considerablemente menor que la incertidumbre de la medida. Su principal valor reside en permitir al analista evaluar si los resultados replicados en un proceso analítico son consistentes entre sí o con algún criterio externo. La duplicación en un proceso, proporciona al analista un tipo de control de calidad restringido que se lleva a cabo considerando la diferencia entre los resultados duplicados del material sujeto al ensayo.
Este método tiene la ventaja de que la variación observada es la de materiales que son completamente comunes, tanto en la composición como en el estado. Para representar la verdadera variación dentro del proceso, las partes de ensayo duplicadas deben encontrarse en posiciones aleatorias en la secuencia analítica. Si se encuentran contiguas, o muy cercanas en relación a la duración del proceso, la variación observada entre pares podría ser demasiado pequeña, porque no tendría en cuenta los cambios sistemáticos comentados.
El estadístico usado es la diferencia entre los correspondientes pares de resultados, y tiene una desviación estándar de:
La diferencia d tiene una expectativa (a medio o largo plazo) de cero sólo si no hay una tendencia consistente en la ejecución instrumental (si la sensibilidad instrumental cae durante el proceso, el primer par de resultados duplicados tiende a ser más grande incluso si las partes de la muestra se analizan de forma aleatoria). Esta dificultad aparente se puede superar considerando simplemente la diferencia absoluta entre los resultados correspondientes.
Asumiendo normalidad, las diferencias escaladas deberían comportarse como una muestra de una distribución normal, independientemente de cualquier variación de
45
Cualimetría
concentración en los materiales. No tiene sentido dibujar estos resultados en un gráfico de control Shewhart ya que los resultados no son secuencia temporal. Para mostrar la distribución es suficiente un gráfico de puntos.18
Añadiendo al gráfico una dimensión de concentración se puede extraer más información. Se suele utilizar mucho un “mapa de control” basado en esta idea. En este mapa se dibuja frente a
, en ejes lineales o logarítmicos, según convenga. Las líneas de control son función de la concentración y se deben dibujar a y . Además, la diferencia absoluta media, cercana en valor numérico a , también se puede dibujar como línea central y contar los puntos por encima y por debajo de esta línea dando una información extra al analista. Este mapa tampoco es una carta de control porque los resultados no están presentados como secuencia. Este uso es consistente con el concepto del proceso como un sistema analítico que no cambia.
Los límites de control (superiores sólo) se establecen19 en y sólo 3 de cada 1000 puntos deben superar .
3.2.2 Control de calidad interno (IQC) y precisión análisis a análisis
El propósito del control de calidad interno en el análisis es asegurar tanto como sea posible que la magnitud de los errores que afectan al sistema analítico no cambie durante su uso
18
M. Thompson, P.J. Lowthian en Notes on Statistics and Data Quality for Analytical Chemists, Ed. Imperial College Press, 2011, pag 191 19
M. Thompson, R. Wood, Pure Appl. Chem., 1995, 67 (4), 649-666, Harmonized guidelines for internal quality control in analytical chemistry laboratories (IUPAC technical report)
46
Cualimetría
rutinario. La base de tiempo para este control es el proceso analítico.20
Durante los análisis químicos debemos generar una característica representativa del sistema. Esto se hace añadiendo una o más “muestras de control” al análisis rutinario. Las muestras de control deben tratarse exactamente igual que las muestras rutinarias en todas las partes del proceso analítico. Estas muestras de control deben ser del mismo tipo que las rutinarias en cuanto a composición de la matriz y concentración del analito. Así, las muestras de control actúan como un sustituto y su comportamiento es un indicador propio del desempeño del sistema. Los resultados obtenidos en sucesivos análisis se pueden dibujar como un gráfico de control.
Cuando llevamos a cabo un número continuado de análisis en el mismo laboratorio, las condiciones de medida serán inevitablemente diferentes en cada análisis: el instrumento se configurará de forma diferente o se usa un instrumento diferente del mismo tipo, se usarán nuevos reactivos recién preparados o una nueva calibración de un instrumento, incluso quizás realizada por un analista diferente. Las condiciones ambientales del laboratorio también pueden ser diferentes. Esto produce un efecto de sesgo en el análisis. A largo plazo esta variación parece un efecto aleatorio entre análisis además de la variación de la repetibilidad. A este efecto combinado se le llama variación análisis a análisis (a veces también llamada variación “intermedia”). Esta desviación estándar análisis a análisis puede usarse para configurar los gráficos de control para el control de calidad interno. Si se usa incorrectamente la desviación estándar de repetibilidad podría ocurrir pérdida de control estadístico con bastante frecuencia, mientras que el uso de la desviación estándar
20
M. Thompson, P.J. Lowthian en Notes on Statistics and Data Quality for Analytical Chemists, Ed. Imperial College Press, 2011, pag. 195
47
Cualimetría
de reproducibilidad o la incertidumbre estándar podría dar lugar a una proporción demasiado baja.
Hay que recordar que los parámetros que definen el control estadístico y se usan para configurar el gráfico de control deben referirse sólo al comportamiento del proceso mismo.
3.2.3 Empleo de muestras de control
En ocasiones se usan muestras de control, que pueden ser materiales de referencia certificados, muy caros y sólo utilizados por laboratorios con mucho presupuesto, o bien pueden ser muestras de concentración conocida (por ejemplo, por su uso en ensayos de aptitud interna).
En este caso, se trata de:
1. Seleccionar las muestras de control
2. Introducirlas en la fase del proceso analítico que se quiera controlar
3. Evaluar los resultados obtenidos
Es muy importante tanto la selección de la muestra de control específica como la selección de la fase del proceso analítico que se quiere controlar, bien porque se supone que de ahí emana el principal sesgo del análisis bien porque se quiere controlar que no hay tendencias de sesgo desde que se validó el método analítico.
Si se quiere controlar el desempeño concreto de un analista del laboratorio, se le ofrecerá como una muestra desconocida pero formando parte del proceso para que no levante sospechas de tratarse de un control aleatorio de su desempeño, de lo contrario se esmerará en el análisis de la muestra y el sesgo producido no será natural, tendiendo a disminuir con respecto al habitual.
48
Cualimetría
3.3 Control de calidad externo
Entre las herramientas más usadas para evaluar el control de calidad externo de un laboratorio, vamos a centrarnos en los ensayos de aptitud o de competencia (Proficiency testing), que son aquellos ejercicios de intercomparación utilizados para controlar la calidad de las medidas que obtiene un laboratorio. Los vulgarmente llamados anillos, bastante extendidos en la actualidad, tienen como misión garantizar al gestor del laboratorio participante que los resultados de las medidas que genera ese laboratorio son correctos.
Se entiende por ensayo de aptitud un análisis de la misma muestra efectuado por distintos laboratorios. Se suelen analizar varias variables de la muestra y sirve para comparar los resultados y verificar que se obtienen incertidumbres bajas.
La participación en un esquema de ensayo de aptitud es un requerimiento casi universal para la acreditación de un laboratorio.
Los ensayos de aptitud no son en sí mismos suficientes para garantizar la producción de datos de alta calidad, pero dan una información relevante de la calidad de las medidas.
En primer lugar, es evidente que la interpretación de los datos de pruebas de competencia está sujeta a incertidumbre estadística y los criterios en que se basarán las decisiones son en cierto modo arbitrarios.
En segundo lugar, existe la posibilidad de que no todos los datos sean válidos. Por ejemplo, los laboratorios que se enfrentan a ser excluidos de un mercado comercial podrían verse tentados a mejorar su índice de desempeño de manera poco profesional, por ejemplo mediante el tratamiento de las muestras de ensayo con especial cuidado o por connivencia con otros laboratorios. Algunas de estas prácticas serían difíciles de eliminar.
49
Cualimetría
En tercer lugar, el alcance de los ensayos de aptitud está limitado por los costes que suponen. En la mayoría de los laboratorios significa que sólo una pequeña proporción de las muchas determinaciones diferentes que se llevan a cabo puede ser sometida a una prueba de aptitud. Obviamente, se puede elegir un método de ensayo de modo que pueda considerarse representativo de una clase de materiales de ensayo o de métodos analíticos.
Sin embargo, no hay otra alternativa que asumir que el desempeño demostrado en un número relativamente pequeño de pruebas será representativo del comportamiento del laboratorio en una gama de tareas analíticas mucho más amplia.
Todas estas circunstancias llevan a la misma conclusión: los ensayos de aptitud, aunque puedan ser útiles, no pueden ser la única base para llevar a cabo acciones correctivas. La decisión de descalificar a los laboratorios debe basarse en otras pruebas, quizás más completas, sobre inspecciones de los registros de control de calidad, los protocolos de análisis y el entorno del laboratorio.
Además de lo anterior, los ensayos de aptitud sólo son aplicables a determinadas categorías de tareas analíticas. En términos generales, se limitan a un análisis donde la determinación se lleva a cabo de forma rutinaria, en un grupo de los laboratorios, y donde la comparabilidad, la veracidad son importantes. Incluso donde prevalecen estas condiciones, puede haber dificultades técnicas (por ejemplo, relacionadas con la naturaleza de los materiales de ensayo) que impiden la ejecución de la prueba21.
Los resultados de los participantes en el esquema o “anillos” se convierten por lo general en puntuaciones que indican la precisión de la medida. Casi todos estos sistemas de puntuación se basan en 21
M. Thompson, P.J. Lowthian, Analyst, 1996, 121, 1589-1592.
50
Cualimetría
las propiedades de la distribución normal, pero algunos métodos estadísticos necesitan el uso de software especial para procesar los resultados.
En cada ronda del esquema, el proveedor del mismo envía a todos los participantes porciones de uno o más materiales de ensayo que deben analizar a ciegas (sin conocer el resultado real previo al ensayo) usando sus métodos de análisis rutinarios. Los materiales (matrices) y analitos deben ser los habituales en el trabajo diario de los participantes.
Estos materiales deben ser homogéneos y estables, así las variaciones obtenidas en los resultados reflejan exactamente las variaciones en el desempeño de los participantes más que las variaciones en el material de ensayo.
Existe una fecha tope de entrega de datos (deadline) tras la cual el proveedor procesa los resultados y los convierte en puntuaciones que dan una indicación de la exactitud de la medida. El proveedor envía un informe de la ronda a los participantes, donde muestra los resultados y puntuaciones de todos ellos aunque de forma anónima (se les asigna un número clave a cada uno de ellos). Estos ensayos se envían con diferentes frecuencias, normalmente varias veces al año. No pueden, por lo tanto, actuar como un sustituto para el control de calidad interno, que debe llevarse a cabo con la normalidad establecida.
El principal propósito de un ensayo de aptitud es permitir confiar a los participantes en sus métodos analíticos rutinarios. Si se detecta una inexactitud en sus resultados rutinarios, se debe abrir una investigación y tomar acciones correctivas cuando sean necesarias. Esta función es tan importante que la participación en un ensayo de aptitud, en aquellos sectores donde esté disponible, se ha convertido en un requerimiento universal para estar acreditado. Por otro lado, las agencias de acreditación esperan que los participantes tengan y apliquen un procedimiento escrito
51
Cualimetría
para hacer frente a los resultados insatisfactorios. Sin embargo la acreditación ha tenido el desafortunado efecto de fomentar en los participantes sobresalir en exactitud en lugar de asegurar el desempeño de las operaciones rutinarias. Esta tendencia se acentúa cuando los laboratorios utilizan sus puntuaciones en actividades promocionales, por ejemplo mostrar puntuaciones favorables en licitaciones de trabajo, o para supervisar el rendimiento de analistas individuales. Estos usos secundarios tienden a subvertir el carácter original del ensayo de aptitud.
El uso fundamental de un ensayo de aptitud es asegurar su desempeño a través de medidas o calibraciones específicas.22
Los resultados y la información recibida de la participación en los esquemas, darán a los laboratorios bien una confirmación del desempeño satisfactorio del mismo o bien una indicación de existencia de problemas potenciales y las correcciones que hay que tener en cuenta.
Los beneficios que se obtienen al participar en esquemas de ensayos de aptitud son varios:23
1. Identificar problemas de medida (como gestión del riesgo y herramienta de mejora del desempeño)
2. Comparar métodos o procedimientos
3. Comparar capacidades de operador
4. Comparar sistemas analíticos
5. Mejorar el desempeño
22
Eurachem, Selection, use and interpretation of Proficiency Testing (PT) Schemes, second edition 2011, pag. 9 23
Eurachem, Selection, use and interpretation of Proficiency Testing (PT) Schemes, second edition 2011, pag. 10-12
52
Cualimetría
6. Educar al personal
7. Intercambio de información con el proveedor de ensayos de aptitud
8. Infundir confianza en el personal, Gestión, y Usuarios Externos de Servicios de Laboratorio
9. Incertidumbre de la medida
10. Uso de elementos del ensayo como Controles de Calidad Interno
11. Verificación de desempeño del método
Según la norma ISO 13528:2005, un ensayo de aptitud se usa para determinar el cumplimiento de laboratorios individuales y monitorizar el desempeño continuo de los laboratorios.
El sesgo de un laboratorio puede asegurarse por ensayos con materiales de referencia, cuando están disponibles, usando procedimientos escritos.24 De otra manera, el ensayo de aptitud proporciona medios generalmente disponibles para obtener información sobre el sesgo de laboratorio y el uso de datos de ensayos de aptitud para obtener estimados del sesgo de laboratorio. Sin embargo, la estabilidad y repetibilidad van a afectar a los datos obtenidos en ensayos de aptitud. Así, es posible que un laboratorio obtenga datos en una ronda de un ensayo de aptitud que indican un sesgo causado por una pobre estabilidad o una pobre repetibilidad. Por lo tanto es importante que estén asegurados regularmente estos aspectos del desempeño del laboratorio.
24
ISO 5725-4:1994, Accuracy (trueness and precision) of measurement methods and results -- Part 4: Basic methods for the determination of the trueness of a standard measurement method
53
Cualimetría
La estabilidad se puede asegurar por re-análisis de muestras archivadas (sobrantes de anteriores rondas siempre que no signifique que hayan perdido estabilidad durante el almacenaje) o haciendo medidas regulares sobre un material de referencia o un material de referencia interno (stock de material establecido por un laboratorio para usarlo como material de referencia privado).25 La estabilidad también se puede asegurar trazando en gráficos de control los estimados del sesgo de laboratorio derivado de ensayos de aptitud. Esto puede darnos información sobre el desempeño del laboratorio que no sea aparente examinando los resultados de las rondas individuales de los ensayos de aptitud. Este es otro aspecto importante del análisis de esos datos.
Las pruebas propuestas servirán para la estimación de los parámetros que describen el rango normal de comportamiento de los participantes, a partir de datos que, obviamente, pueden estar contaminados con los resultados de los laboratorios muy sesgados. Necesitamos estadísticas que describan la mayoría de los datos y, con los que podemos identificar los datos que no se ajustan al patrón de la mayoría con más certeza. Por ejemplo, no queremos un consenso que pueda estar sesgado por un valor atípico extremo o colas pesadas, ni queremos desviaciones estándar que se inflen a causa de estas características. Para este propósito se utilizan los estadísticos robustos, más adecuados.
3.3.1 Determinación del valor asignado y su incertidumbre estándar
Existen diferentes métodos para obtener el valor asignado, estimado de trabajo del valor real.26-27-28
25
ISO 5725-3: 1994, Accuracy (trueness and precision) of measurement methods and results -- Part 3: Intermediate measures of the precision of a standard measurement method
26 ISO 13528:2005 (2005) Statistical methods for use in proficiency testing by
interlaboratory comparisons. International Organization for Standardization, punto 12.
54
Cualimetría
Todos ellos tienen fortalezas y debilidades. La selección del método apropiado dependerá de los propósitos del esquema.
1. Medido por un laboratorio de referencia
Un valor de un laboratorio de referencia nacional obtenido por un método como espectrometría de masas por dilución isotópica.
2. Usando un material de referencia certificado
El valor certificado del analito en un material de referencia certificado (MRC). Metrológicamente es muy sólido, pero se usa pocas veces porque el coste de un MRC es muy elevado para ser usado de forma rutinaria. Además, la incertidumbre del valor certificado suele ser muy grande para ser útil. Hay bastantes inconvenientes ya que las matrices naturales de los MRC no suelen encontrarse con facilidad y en cantidades suficientes por lo que en la mayoría de los casos suelen ser bastante costosos.
3. Comparación directa del material del ensayo de aptitud con materiales de referencia certificados
El materia de ensayo se analiza varias veces junto a un material de referencia certificado apropiado en un orden aleatorio y en condiciones de repetibilidad (p. ej. en una sola ejecución) con un método con una incertidumbre adecuadamente pequeña. Es muy difícil determinar si el MRC es suficientemente equivalente en todo al material del ensayo.
27
M. Thompson, S.R. Ellison, R. Wood, Pure Appl. Chem., 2006, 78 (1), 145-196, The International harmonized protocol for the proficiency testing of analytical chemistry laboratories (IUPAC technical report), 2006. 28
Eurachem, Selection, Use and Interpretation of Proficiency Testing (PT) Schemes, 2nd
ed. 2011, punto 7.2.1
55
Cualimetría
4. Consenso de laboratorios expertos
Suele encontrarse dificultad para identificar los laboratorios expertos que satisfagan a cada participante. La variación entre los resultados de los expertos suele ser comparable con la serie de participantes, y el valor asignado no tiene una incertidumbre suficientemente pequeña.
5. Valor basado en una formulación.
Puede usarse donde el analito se añade gravimétricamente o volumétricamente a un material base soporte. Es aplicable a veces, y suelen haber dificultades para que se una con precisión la base del material con poco nivel de analito, que la base se encuentre efectivamente libre de analito antes de su adición o que tenga una concentración conocida, incluso que el analito no se termine enlazando químicamente con la base.
6. Consenso de los participantes
Es el valor asignado más usado y no supone coste alguno. Un consenso suele ser fácil de llevar a cabo y tiene un error estándar suficientemente pequeño si hay más de 20 participantes. El consenso ha sido criticado por razones metrológicas, como es perfectamente posible para la gran mayoría de los participantes al usar un método analítico imparcial. En algunos ejemplos habría una incertidumbre latente en el valor asignado, y los participantes que usan un método imparcial podrían recibir malos z-scores. Sin embargo, actualmente pocas veces hay una alternativa económicamente viable. La larga experiencia demuestra que los valores de consenso suelen ser muy cercanos, en la práctica, a los valores de referencia fiables proporcionados por la formulación, el consenso de expertos de laboratorio, y los valores de referencia (ya sean procedentes de MRCs o de laboratorios de referencia).
56
Cualimetría
Los inconvenientes de elegir los valores de consenso de los participantes es, en primer lugar, que no son independientes de los resultados de participantes y, en segundo lugar, que la incertidumbre puede ser demasiado grande, cuando el número de laboratorios participantes es pequeño.
La elección entre estos métodos debe ser responsabilidad del coordinador o consultando a expertos técnicos.29 Los métodos descritos no parecen ser aplicables cuando hay un número pequeño de laboratorios participantes en el esquema. Los métodos para calcular la incertidumbre estándar, , del valor asignado dado será más adecuado para las aplicaciones en las que se usan en la norma estándar internacional ISO 13528:2005.
La determinación del valor asignado debería ser responsabilidad del coordinador. El valor asignado no se divulga a los participantes hasta que éstos han enviado sus resultados al coordinador. Este debe preparar un informe dando detalles de cómo se ha obtenido el valor asignado, las identidades de los laboratorios participantes en su determinación y las declaraciones de trazabilidad e incertidumbre de medida del valor asignado.
La ISO 13528:2005 recomienda el uso de métodos estadísticos robustos porque se considera que son los métodos más apropiados para ello. De forma alternativa, se usarán procedimientos que disponen de detección y eliminación de puntos anómalos que tengan una sólida base estadística.30
29
ISO/IEC Guide 43-1:1997, Proficiency testing by interlaboratory comparisons -- Part 1: Development and operation of proficiency testing schemes
30 ISO 5725-2:1994, Accuracy (Trueness and Precision) of Test Measurements Part 2:
Basic method for the determination of repeatability and reproducibility of a standard measurement method.
57
Cualimetría
3.3.2 Valores consensuados por laboratorios participantes31
En el contexto de un ensayo de aptitud, el “consenso” no significa concordancia absoluta, sino un punto único e identificable de máximo acuerdo entre los resultados de los participantes. En este contexto se consideran todas las medidas de tendencia central. Además del valor del mismo estadístico seleccionado, se necesita un estimado de su incertidumbre para asegurar que el valor asignado es suficientemente estable. Son muchos los métodos para estimar estos estadísticos, pero se necesita experiencia y juicio para seleccionar el método apropiado para conjuntos de datos particulares.
En esta aproximación, el valor asignado para el ensayo de un material usado en una ronda de un esquema de ensayos de aptitud es la media robusta de los resultados reportados por todos los participantes en la ronda, calculada usando el algoritmo A del anexo C.32
En lugar del algoritmo A se pueden usar otros métodos de cálculo, a condición de tener una base estadística sólida y el informe describa el método usado.
- Media. La casi inevitable presencia de puntos anómalos y colas pesadas en el conjunto de datos de los ensayos de aptitud significa que la media aritmética puede estar sesgada y la varianza ser alta. Uno de muchos estimados robustos es adecuado para evitar estos problemas si el conjunto de datos es unimodal y razonablemente cercano a la distribución simétrica. En estos conjuntos de datos los diferentes estimados de tendencia central casi coinciden, y
31
ISO/IEC Guide 43-1:1997, Proficiency testing by interlaboratory comparisons -- Part 1: Development and operation of proficiency testing schemes, A.1.1 item e 32
ISO 13528:2005 Statistical methods for use in proficiency testing by interlaboratory comparisons
58
Cualimetría
la media robusta es un buen estimador. El error estándar de la media robusta puede ser estimado como:
Donde s* es la desviación estándar robusta calculada usando el algoritmo A del anexo C33 y el número de participantes.
- La mediana. Es un tipo de media robusta pero es más resistente que algunos estimadores para la influencia del sesgo, que puede aparecer en los conjuntos de datos de los ensayos de aptitud mediante el uso de una serie de métodos con diferentes límites de detección. En cambio, se prefiere la moda en caso de distribuciones sesgadas.
- La moda. Es atractiva como estimador de consenso, y sirve incluso cuando los conjuntos de datos muestran un grado moderado de falta de simetría. La moda de una distribución lisa es el punto de mayor densidad. El error estándar de la moda se puede estimar a través de la rutina de carga (un método de estimación intensivo por ordenador). Este estimador puede presentar problemas cuando las distribuciones de los conjuntos de datos no son unimodales debido a que los participantes han usado uno o varios métodos analíticos discrepantes o variantes de un mismo método.
33
ISO 13528:2005 Statistical methods for use in proficiency testing by interlaboratory comparisons
59
Cualimetría
Cualimetría
Algoritmo A
En este algoritmo robusto se colocan todos los resultados en orden creciente:
La media robusta y la desviación estándar robusta serán y
y sus valores iniciales se calculan según:
Para actualizar los valores de y se calcula en primer lugar:
Y, a continuación, para cada , se calcula
según:
Los nuevos valores de y se calculan según:
60
Cualimetría
Este cálculo se puede afinar de forma iterativa hasta la convergencia de los resultados.
3.3.3 Puntuación de ensayos de aptitud (evaluación del desempeño)
Habíamos hablado antes que en estos ensayos de aptitud, los resultados obtenidos del analito correspondiente, se convierten en una puntuación que refleja la exactitud del resultado. La puntuación ideal se debe aplicar de manera universal: un valor particular debe transmitir la misma información sobre la exactitud de un resultado, independientemente del analito, su concentración, el material de ensayo o el principio físico usado en la medida. De hecho, la puntuación es inútil a menos que tenga esta propiedad.
Normalmente se usa el z-score, dado por la fórmula:
El “valor asignado”, , es el mejor estimado, del proveedor del ensayo, del valor verdadero del mensurando, y es la “desviación estándar para la aptitud” (vulgarmente conocido como “valor objetivo”). La eficacia de un esquema depende de forma crítica de la selección de los valores apropiados para y .
Un laboratorio hipotético que usa un método imparcial produciendo resultados con una incertidumbre tendería a producir z resultados que son una muestra aleatoria de una distribución normal estándar N(0,1) que tiene una media de 0 y una varianza de la unidad. Por consiguiente, es apropiado interpretar los z-scores sobre esta base, así podríamos esperar con un 95% de confianza, tener z-scores de laboratorios fiables entre
y los poco fiables entre . Los laboratorios que operan con poca incertidumbre ( ), con sesgo tienden a producir mayor
61
Cualimetría
porcentaje de resultados fuera de estos límites. Por el contrario, los laboratorios que operan sin sesgo y una incertidumbre más pequeña que , tienden a producir un pequeño porcentaje fuera de estos límites. En informes típicos, los resultados de los participantes se muestran como un gráfico de barras o gráfico de barras ordenadas, con el laboratorio individual identificado por un código anónimo. En algunos ejemplos el número de participantes es tan grande que el gráfico de barras es impracticable y se sustituye por un histograma.
3.3.4 Cálculo de los indicadores de desempeño
z-scores
El principal estimador usado en los ensayos de aptitud es el llamado z-score que viene calculado por:
Donde es la desviación estándar para la evaluación de aptitud.
Cuando un participante obtiene un resultado que da lugar a un z-score por encima de 3,0 o por debajo de -3,0, el resultado se debe considerar como un “indicador de acción”. Del mismo modo, un z-score por encima de 2,0 o por debajo de -2,0 se debe considerar como un “indicador de advertencia”. Un sólo “indicador de acción” o “indicador de advertencia” en dos rondas sucesivas, debe interpretarse como evidencia de haber ocurrido una anomalía que requiere investigación.
z’-score
Este indicador se calcula con la ecuación:
62
Cualimetría
Donde es la incertidumbre estándar del valor asignado .
Esta ecuación se usa cuando el valor asignado no se calcula a partir de los resultados de los participantes, en caso contrario no se puede usar.
El resultado z’-score se debe interpretar de la misma forma que z-score y se usan los mismos valores críticos de 2,0 y 3,0.
Si comparamos el z-score con z’-score, para un anillo de un ensayo de aptitud éste último sería más pequeño que el correspondiente z-score por un factor constante de:
Zeta-scores ( )
Se calcula según:
Donde es el estimado de la incertidumbre estándar del resultado propio del laboratorio , y es la incertidumbre estándar del valor asignado .
Esta ecuación se usa cuando el valor asignado no se calcula usando los resultados aportados por los participantes.
Se puede usar -score en lugar de z-score cuando hay un sistema efectivo en la operación para los estimados de las incertidumbres estándar de los resultados propios de los laboratorios. Se interpretaría de la misma forma que este y usando los mismos valores críticos de 2,0 y 3,0.
63
Cualimetría
Números En
Este estadístico se calcula según:
Donde es el valor asignado determinado por un laboratorio de referencia
es la incertidumbre expandida de
es la incertidumbre expandida de un resultado de un participante
Con los números En se suele usar un valor crítico de 1,0 ya que se calculan usando las incertidumbres expandidas en el denominador, en lugar de las desviaciones estándar.
Ez-score
El estimador Ez-score se obtiene por las ecuaciones:
En estas ecuaciones, es el valor asignado un valor de referencia (laboratorio de referencia), es la incertidumbre expandida de (valor asignado), es el resultado de laboratorio y
la incertidumbre expandida de (resultado de laboratorio).
Ez usa como valor crítico 1,0. Así:
- Cuando Ez- y Ez
+ se encuentran entre -1,0 y 1,0 el desempeño del laboratorio es satisfactorio.
64
Cualimetría
- Cuando uno de los dos se encuentra fuera, el desempeño es cuestionable
- Cuando ambos se encuentran fuera del rango, el desempeño es insatisfactorio.
3.3.5 Tratamiento de puntos anómalos o aberrantes (outliers)
Un punto anómalo o aberrante es una observación numéricamente distante del resto de datos. Los datos anómalos pueden aparecer por casualidad en cualquier distribución, pero suelen ser indicativos de errores de medida o de que la población tiene una distribución de cola pesada. En el primer caso se suelen descartar o usar estadística robusta para los datos anómalos, mientras que en el otro caso indican que la distribución tiene una alta propagación y que se debe ser muy cauteloso en el uso de herramientas o intuiciones que asumen una distribución normal. Una causa frecuente de anómalos es una mezcla de dos distribuciones que pueden ser dos sub-poblaciones distintas, o puede indicar un “juicio correcto” frente al “error de medida”.34
3.3.6 Métodos gráficos para combinar puntuaciones del rendimiento en varios mensurandos en una ronda de un ensayo de aptitud
Histogramas
Es un gráfico de barras donde se representa en el ‘eje x’ los valores z-score y en el ‘eje y’ el número de laboratorios que obtiene cada valor z-score.
34
Eurachem, Selection, use and interpretation of Proficiency Testing (PT) Schemes, second edition 2011, pag. 16
65
Cualimetría
Figura 1.12. Ejemplo de histograma
Gráfico de barras de los sesgos de laboratorio estandarizados
En un gráfico para cada mensurando se representan en el eje x los laboratorios y en el eje y las desviaciones z-score.
En este gráfico se suelen representar varios z-scores, de diferentes rondas, por cada laboratorio participante. Así se pueden estudiar los sesgos de cada laboratorio en varias rondas sucesivas y su magnitud (Figura 1.13).
0
5
10
15
20
25
30
35
40
Nº
de
re
sult
ado
s
Rango z-score
Histograma de z-scores
66
Cualimetría
Figura 1.13. Ejemplo de gráfico de barras de sesgos de laboratorio estandarizados (cada laboratorio está representado por 3 rondas.35
Gráfico de Youden
Cuando se hacen análisis de dos muestras similares en una ronda de un esquema de competencia, el gráfico de Youden es un método gráfico muy informativo para estudiar los resultados. Se construye dibujando los z-scores obtenidos en una de las muestras frente a los z-scores de la otra muestra. Se calcula una elipse de confianza siguiendo el método de Jackson36 que ayuda a interpretar el gráfico, como vemos en la Figura 1.14.
35
ISO 13528:2005 Statistical methods for use in proficiency testing by interlaboratory comparisons 36
Jackson, J. E. Quality control methods for two related variables. Industrial Quality Control, 7, 1956, pp. 2-6
67
Cualimetría
Figura 1.14. Ejemplo de gráfico de Youden con las tres elipses de confianza.37
Otra opción de este gráfico es representar, para un mismo
laboratorio y mensurando, los diferentes anillos en el eje x frente a los z-scores conseguidos en el eje y. Así se pueden visualizar fácilmente tendencias.
También se puede derivar un gráfico Youden para los datos originales, sesgos de laboratorio o porcentajes de sesgo a partir de los z-scores.
37
ISO 13528:2005 Statistical methods for use in proficiency testing by interlaboratory comparisons
68
Cualimetría
La interpretación de este gráfico complejo es, en cambio, sencilla: se inspecciona el gráfico para los puntos que están muy separados del resto de datos. Si un laboratorio no sigue correctamente un método de ensayo, es decir sus resultados tienen sesgo, el punto que lo representa se situará lejos del eje mayor de la elipse. También puede ocurrir si un laboratorio sufre de vez en cuando una gran variación en el nivel de sus resultados. Los puntos alejados del eje mayor representan a los participantes cuya repetibilidad es mala. A continuación se inspecciona el gráfico para ver si hay evidencia de una relación general entre los resultados para las dos muestras. Si la hay, mostrará que hay causa de variación inter-laboratorio, común a muchos de ellos, y evidencia que el método de medida no ha sido especificado de forma adecuada. La investigación de los métodos de ensayo puede permitir la reproducibilidad del método. Se puede usar el ensayo de correlación de rango para comprobar si hay una diferencia significativa entre las dos muestras. Es preferible el coeficiente de correlación del rango al coeficiente de correlación ya que éste sería más sensible a datos no normalizados.
Sobre este gráfico se pueden dibujar las llamadas elipses de confianza al 5%, 1% y 0,1% para ayudarnos a tomar decisiones en forma de “indicador de acción” o “indicador de advertencia”.
Gráfico de repetibilidad de desviaciones estándar
Cuando los participantes realizan n muestras replicadas en un anillo de un esquema de ensayo de aptitud, se pueden usar los resultados para construir un gráfico que identifique qué laboratorios tienen la media y la desviación estándar raras. El gráfico se construye dibujando la desviación estándar intra-laboratorio si para cada laboratorio frente a su correspondiente media xi . Así:
69
Cualimetría
Y se asume que los datos están distribuidos normalmente.
Sobre el gráfico se dibuja la función:
para 0,1%, 1% y 5% nivel de confianza.
Cada mensurando dispondrá de un valor medio y una desviación estándar que, representados en el gráfico anterior deben encontrarse dentro de la función cerrada representada (Figura 1.14).
Muestras divididas
Cuando hay que realizar una comparación detallada de dos laboratorios se usa el método de muestras divididas. En ocasiones, puede realizarse sobre más de dos laboratorios.
Los datos se usan para producir gráficos que muestran la variación entre las medidas replicadas de dos laboratorios y las diferencias entre sus resultados medios para cada muestra.
Representando gráficamente las concentraciones medias (eje x) para un laboratorio frente a sus recorridos entre muestras replicadas (eje y) y en otro gráfico el otro laboratorio, se puede observar aquel laboratorio que tenga las variaciones más altas.
70
Cualimetría
Figura 1.14. Ejemplo de gráfico de repetibilidad de desviaciones estándar.38
Si representamos gráficamente las concentraciones medias totales de los dos laboratorios para cada muestra (eje x) frente a las diferencias entre los dos laboratorios (eje y), se pueden observar variaciones debidas a las propias muestras.
3.3.7 Métodos gráficos para combinar puntuaciones de desempeño en varios anillos de un esquema de ensayo de aptitud
38
Bequalm phytoplankton proficiency test in the abundance and composition of marine microalgae 2013 report.
71
Cualimetría
Se suelen usar estos gráficos para control, seguimiento y análisis de tendencias y otras características que no son aparentes analizando los datos de forma separada.
El Protocolo Internacional Armonizado39 recomienda no utilizar este tipo de “clasificaciones” entre laboratorios por no ser reales. El estudio de M. Thompson y P.J. Lowthian refuerza estas recomendaciones.40
Gráfico de control Shewhart para z-scores
Este gráfico se prepara dibujando las puntuaciones individuales (z-scores) de un laboratorio y de un mismo analito a lo largo de los diferentes anillos del esquema.
Los indicadores de acción y advertencia se colocan a y . Las reglas de interpretación son las típicas de un gráfico de
Shewhart donde se monitorea una característica determinada de un proceso y se controla si se desvía de los indicadores de advertencia y de acción.
Con este tipo de gráficos se pueden identificar problemas que causan valores erráticos en los z-scores. Sus reglas de interpretación son:
- Un punto fuera de los indicadores de acción ( ) - Dos o tres puntos sucesivos fuera de los indicadores de
advertencia ( ) - Más de tres puntos seguidos en una misma zona del gráfico
(por encima o por debajo del eje marcado por el cero)
Gráfico de control Cusum para z-scores
Para preparar este gráfico se toma la suma acumulada de los z-scores durante anillos sucesivos de una misma característica. Se
39
M. Thompson, S.L.R. Ellison, R. Wood, Pure Appl. Chem, 2006, 78 (1), 145-196. The International Harmonized Protocol for the Proficiency Testing of Analytical Chemistry Laboratories (IUPAC technical report). 40
M. Thompson, P.J. Lowthian, Analyst, 1996, 121, 1589-1592
72
Cualimetría
pueden representar varias características simultáneamente, cada una de ellas con sus sumas acumuladas.
Este gráfico identifica problemas que causan sesgo en la determinación de la característica monitorizada y que persiste durante varios anillos.
Gráficos de sesgos de laboratorio estandarizados frente a las medias de laboratorio
Cuando una característica tiene recorridos amplios de valores, se suele graficar la media frente al z-score a lo largo de sucesivas rondas, así se puede identificar si el sesgo varía en función de la concentración de la característica.
Gráfico de puntos
Un gráfico de puntos es similar al gráfico de Shewhart, en el eje x se representa la fecha del anillo y en el eje y se representa el z-score pero con múltiples puntos en cada periodo de tiempo. Así, se conectan las medias de cada grupo de puntos de la misma fecha. Así se pueden identificar puntos individuales del ensayo de la misma fecha que hayan salido fuera de los indicadores de advertencia o acción.
4 ANÁLISIS SENSORIAL
4.1. Historia del análisis sensorial
Desde la antigüedad, hay constancia de algunos alimentos, producidos en ciertas regiones o determinados pueblos, que se apreciaban por sus características organolépticas. Muchos de ellos nos han llegado por citas de los escritores clásicos: aceites y vinos de Lesbos, ostras de Tarento, dátiles de Egipto, aceites y vinos de Hispania, el garum de Malaca, etc. De donde podemos deducir
73
Análisis sensorial
que el arte de discriminar por los sentidos lo que entraba por la boca era ya bien conocido entonces.
Hoy en día, los alimentos han sufrido una transformación muy importante ya que de la aceptación por parte del consumidor y de la opinión de los expertos, depende mucho que triunfe y se convierta en un buen negocio. El arte sensorial también ha sufrido esta transformación pero de forma más vertiginosa ya que se ha convertido en toda una especialidad dentro del mundo gastronómico.
Se tiene constancia de que en Francia, en el año 1312, ya existía una asociación de Gourmets Catadores de Vino. Hay documentos franceses de 1793 que hablan del degustador, persona cuyo trabajo es catar el vino para definir su calidad y fijar su precio justo en el mercado.
A partir de los años 40 del siglo pasado, comienza la revolución tecnológica en la industria alimentaria y, con ella, los controles del proceso tanto químicos como microbiológicos porque se pensaba que controlando éstos se controlaba la calidad del producto.
Entre 1950 y 1970, se comienza a considerar la importancia de una llamada calidad sensorial en los alimentos. Esto hace desarrollar en primer lugar unos atributos primarios como aspecto (color, turbidez, tamaño), sabor (gusto y aroma) y textura.
Se conocen trabajos de aplicación estadística al análisis sensorial de los alimentos desde 1945 (Marcuse)41, 1950 (Harrison y Elder)42, pero todavía no existía un fundamento ni psicológico ni fisiológico por lo que no hay un gran avance en la época hasta que
41
S. Marcuse. An Application of the Control Chart Method to the Testing and Marketing of Foods, Journal of the American Statistical Association, 1945, 40(230), 214-222. 42
S. Harrison, L.W. Elder. Some applications of statistics to laboratory taste testing, Food Technology, 1950, 4, 434.
74
Análisis sensorial
en 1970 Corey43 identifica la textura como una sensación humana originada por determinados estímulos procedentes del alimento. Les da el nombre de texturógenos a las propiedades de los alimentos que producen dichos estímulos.
En 1971, Von Sydow44 plantea el problema del sabor como característica química del alimento o como carácter psico-físico. En 1977, junto a Akkeson45, establece la distinción entre el aspecto físico-psicológico y físico-óptico del color de los alimentos.
A partir de este momento se comienza a entender el análisis sensorial como el resultado de la interacción entre el alimento y el hombre.
Se define entonces el análisis sensorial como la sensación humana provocada por determinados estímulos procedentes de los alimentos, mediando en ellos las condiciones psicológicas, fisiológicas y sociológicas de la persona que lo realiza.
4.2. Situación actual
La complejidad que ha adquirido hoy el análisis sensorial es paralela al desarrollo tecnológico. Así, hoy en día se puede hablar de toda una ciencia que, junto a los análisis químicos y microbiológicos sí dan una completa información relevante sobre el alimento.
Se han desarrollado técnicas de discriminación de productos, de preferencia por el consumidor, de detección de defectos, etc. Y es un campo cada vez más estudiado y aplicado dentro de la alimentación. Basta recordar la importancia de una cultura del placer alrededor de la gastronomía.
43
H. Corey. Texture in foodstuffs, CRC Crit. Rev. Food Technol., 1970, 1, 161-198. 44
E. Von Sydow, G. Karlsson. The aroma of black currants. IV. The influence of heat measured by instrumental methods, Lebensmittel-Wiss. U. Technol., 1971, 4, 54-58. 45
E. Von Sydow, C. Akesson. Correlating instrumental and sensory flavour data en Sensory Properties of Foods, 1977, Appl. Sci., pag. 113-127.
75
Análisis sensorial
Los análisis sensoriales se suelen desarrollar en salas de control especialmente diseñadas al efecto.46
Hoy, y gracias al desarrollo informático y sobre todo metodológico en el campo sensorial, se pueden llevar a cabo análisis que aporten muchísima información sobre el producto y sus claves de mejora.
Los análisis estadísticos en el campo sensorial son muchos y de múltiples aplicaciones,47 desde un simple estudio probabilístico hasta los más complejos procedimientos quimiométricos, algunos de ellos especialmente diseñados para el estudio sensorial.
Incluso nos encontramos cada vez con más ensayos de aptitud para paneles sensoriales48 en un intento de armonizar criterios a nivel internacional sobre el análisis sensorial.
Algunos autores hablan de los factores psicológicos y fisiológicos que llegan a perturbar la evaluación sensorial.49-50
En esta Tesis se tratará exclusivamente la aplicación de técnicas quimiométricas al estudio de los resultados de análisis sensoriales y no sobre las muchas metodologías existentes para llegar a estos resultados.
46
M.C. Meilgaard y otros en Sensory evaluation techniques, 2007, CRC Press, capítulo 3 47
J.F. Meullenet y otros en Multivariate and probabilistic analyses of sensory science problems, 2007, IFT Press. 48
G. Hyldig en Sensory analysis for food and beverage quality control, 2010, CRC Press, capítulo 3. 49
M.C. Meilgaard y otros en Sensory evaluation techniques, 2007, CRC Press, capítulo 4 50
R.J. Stevenson en The psicology of flavor, 2009, Oxford Univesity Press.
76
Tendencias futuras
5 TENDENCIAS FUTURAS
Quimiometría
Casi 50 años después de haberse acuñado el término “Quimiometría”, son muchos autores los que se preguntan hacia dónde vamos. Se han publicado muchos libros, artículos, se han dado muchas conferencias sobre este asunto y algunos autores ven un gran peligro porque se está orientando todo demasiado hacia los métodos pero no se está incidiendo lo suficiente en sus aplicaciones y en la resolución de problemas químicos. Evidentemente, se necesitan nuevos métodos, y mejorar y entender mejor los existentes. Sin embargo, hay que equilibrar la quimiometría entre los métodos y las aplicaciones tanto en investigación como académicamente porque es muy grande el riesgo de terminar convirtiéndola en un apéndice más sin interés de la estadística.51
El gran éxito de la quimiometría es su uso en la industria. Métodos quimiométricos, como la calibración multivariante, se utilizan de forma rutinaria en una variedad cada vez mayor de aplicaciones: vigilancia de la producción de cerveza, control de calidad de formulaciones farmacéuticas, detección de fraudes.52-53 Se están introduciendo rápidamente métodos multivariantes para la supervisión de procesos en todo tipo de procesos de fabricación, a partir de la pasta y productos químicos de papel,54 productos básicos, productos farmacéuticos,55 alimentos,56 bebidas57 y cosméticos.58-59 Recientemente, estos métodos se han 51
S. Wold, M. Sjöström, Chemometrics and Intelligent Laboratory Systems, 1998, 44, 3-14. 52
D. Cozzolino, Anal. Methods, 2015, 7, 9390-9400. 53
D.I. Ellis y otros, Anal. Methods, 2015, 7, 9401-9414. 54
R. Gosselin y otros, Chem. And Intellig. Lab. Systems, 2010, 100(1), 12-21 55
H.A. Pawar, S.R. Kamat, Physical Chemistry & Biophysics, 2014, 4-6. 56
G. Ou y otros, Anal. Methods, 2015, 7, 5731-5739. 57
C. Pérez-Ràfols, J. Saurina, Anal. Methods, 2015, 7, 8733-8739. 58
C.X. Shi y otros, Anal Methods, 2015, 7, 6804-6809.
77
Tendencias futuras
modificado para hacer frente también a procesos por lotes, tales como los procesos de fermentación biotecnológicos.60
Las áreas con más éxito de la quimiometría en su aplicación industrial han sido la calibración multivariante y el reconocimiento de pautas, clasificación y análisis discriminante.
Los químicos analíticos, tan pragmáticos, adoptaron rápidamente la aproximación multivariante sobre todo gracias a la aparición de programas informáticos capaces de tratar los datos de forma rápida. Algo parecido ocurrió con métodos como el análisis discriminante que usa muchas variables y sólo pueden tratarse con ayuda de computadoras.
La quimiometría es mucho más aceptable donde no hay una fuerte teoría fundamental, las aplicaciones industriales son importantes y abundantes y hay un número de datos elevado, por eso la química física y la inorgánica se resisten a su uso. Este enfoque está mal percibido si se basa únicamente en la modelización empírica y se aprecia poco su interés en la resolución de problemas. Trabajos recientes, pueden construir puentes en estos ámbitos.61-62
Los problemas en nuevas zonas vírgenes como la bioquímica y la química física suelen ser más emocionantes que los problemas de rutina en la espectroscopia analítica, muy investigada y aplicada excepto cuando se relacionan con importantes problemas industriales o ambientales.
El futuro es difícil de predecir. Podemos ver dos tendencias fuertes en las ramas de la tecnología y la ciencia, que probablemente continuará durante algún tiempo. La primera es
59
Z. Zhao, Y. Duan, RSC Adv., 2015, 5, 40636-40646. 60
Z. Wu y otros, Anal. Methods, 2015, 7, 2726-2737. 61
C.B. Cai y otros, Chemometrics and Intelligent Laboratory Systems, 2015, 144, 80-86. 62
M. Zhao y otros, J. Agric. Food Chem., 2015, 63 (5), 1433–1441.
78
Tendencias futuras
que la experimentación exige muchos recursos de tiempo, personal, espacio de laboratorio, instrumentación, productos químicos, disolventes, etc., y se está convirtiendo en algo muy caro. Para ello es necesario el uso del diseño experimental estadístico para hacer nuestros experimentos más eficientes, es decir, que den mayor cantidad de información posible con el menor uso de recursos. Esto también significa que, salvo en algunas áreas como la supervisión de procesos y la química combinatoria, el número de muestras es bastante pequeño, y tiende a ser aún más pequeño con el tiempo.
La segunda tendencia es que cada vez medimos más propiedades, variables, espectros, cromatogramas, perfiles genéticos, etc., en nuestras muestras o ensayos experimentales. Antes se digitalizaban los espectros en 20 variables y hoy se hacen en 1000 variables. En el futuro, es muy probable que haya un número aún mayor de variables en conjuntos de datos químicos que harán aumentar el uso de la quimiometría.
La quimiometría es un área muy interesante de la química. En primer lugar, con una tendencia hacia cada vez más datos en todas las ramas de la química, los métodos de la quimiometría se vuelven cada vez más útiles e incluso necesarios. En segundo lugar, la tendencia hacia una mayor eficiencia y una mayor calidad en la industria química y farmacéutica.
La industria hace que la información sea cada vez más importante, y por lo tanto la quimiometría. En tercer lugar, la aplicabilidad de la quimiometría a problemas muy complicados hace que la vida de un quimiometrista sea muy emocionante y desafiante y a menudo trabajan en la frontera de lo aparentemente imposible de realizar.
No se debe separar la quimiometría de la química. Existe el peligro de ver la quimiometría como una parte de la estadística, como un método de gran esfuerzo teórico. Esto hace perder la
79
Tendencias futuras
flexibilidad, adoptar rigor matemático y estadístico, y la pérdida de la química, y la conversión de la quimiometría sólo a medidas. Aunque los conceptos estadísticos son importantes en quimiometría, los conceptos químicos son más importantes aún, y tenemos que seguir viéndonos a nosotros mismos principalmente como químicos y no como matemáticos.
Mahdi Ghasemi-Varnamkhasti63 y otros, usando espectroscopía NIR, llevan a cabo estudio por análisis de componentes principales y análisis discriminante lineal para clasificar 83 cervezas entre alcohólicas y no alcohólicas sometidas a ensayos forzados en estufas a 40°C.
En otro trabajo, realizado por J. Engel64 y otros, estudia la pertenencia de determinadas cervezas a la rama de cervezas trapistas usando espectroscopía FT-IR y las técnicas multivariantes del análisis de componentes principales y discriminante lineal.
V. di Egidio65 y otros, estudian también con mínimos cuadrados parciales aplicado en datos de espectroscopía NIR también con cervezas trapistas belgas.
El futuro de la quimiometría, como vemos, es emocionante e impredecible. Su desarrollo tiende a ser cada vez mayor al disponer de equipos de análisis generadores de una gran cantidad de datos que los hace ingobernables sin un claro uso de la modelización matemática. Su aplicación, ya alta, en muchos ámbitos industriales y tecnológicos, va a crecer a medida que se desarrollen nuevos sistemas de control de procesos, que albergan un alto número de datos, y nuevos sistemas analíticos con software cada vez más orientado al tratamiento de datos experimentales. Aún quedan por descubrir muchas de sus aplicaciones en campos ya estudiados hoy aunque no suficientemente. Su desarrollo se ampliará, como ya lo está
63
M. Ghasemi-Varnamkhasti y otros, Talanta, 2012, 19, 286-291. 64
J. Engel, L. Blanchet, L.M.C. Buydens, G. Downey, Talanta, 2012, 99, 426-432. 65
V. di Egidio y otros, Food Research International, 2011, 44, 544-549.
80
Tendencias futuras
haciendo, hacia otras disciplinas además de la química analítica. Cada vez se usa más en aplicaciones biológicas y medioambientales y tiene un largo camino que recorrer en otras disciplinas que aún no la aplican.
Cualimetría
En cuanto a la cualimetría, su desarrollo está más bien unido al de las normas internacionales que exigen a los laboratorios una calidad determinada en la medida. Cada vez hay mayores exigencias en cuanto al cumplimiento de ciertos estándares internacionales, y ya no hablamos de leyes de obligado cumplimiento sino de estados de certificación o acreditación ante terceros que son necesarios hoy para poder entablar relaciones comerciales. La cualimetría aquí tiene una importancia enorme debido a la garantía de calidad que no sólo se exige ya a un producto como tal sino a la forma de medir sus características en el laboratorio.
Este desarrollo pasará por una mayor atención y comprensión de los procesos estadísticos involucrados pero también al desarrollo de nuevas formas de medir la calidad en la medida analítica que garantice una fiabilidad en los resultados que minimice los costes de ejercer un control sobre el control de calidad de la medida.
En el control de calidad interno se está trabajando también con análisis multivariante.
Hoy son muy comunes los análisis químicos con salidas múltiples (ICPAES, HPLC, GC-MS,…). La mejora de los principios de control de calidad interno a estos sistemas pasa por el uso de métodos estadísticos multivariantes. La correlación de las variables es una condición preliminar. Las variaciones que ocurren en partes del proceso analítico que son comunes a todos los analitos tienden a causar correlación, por ejemplo, la variación en
81
Tendencias futuras
el volumen inyectado en un cromatógrafo afecta a todos los analitos. Otras variaciones en el método pueden afectar sólo a ciertos grupos de analitos, incluso en un analizador multicanal, un fallo en un sólo canal afecta selectivamente al analito que se mide por ese canal.
Se están usando ya con frecuencia gráficos de control multi-analitos donde se pueden observar comportamientos tanto globales como individuales de analitos concretos.
Las normas siguen desarrollándose, este año se ha publicado en agosto la nueva versión de la norma ISO 13528:2005, que pasa a llamarse ISO 13528:2015. Como hemos visto a lo largo de esta Tesis, las normas ISO 5725, en todas sus partes, son de los años 1994 a 1997 por lo que se espera una reedición en breve.
El desarrollo que está teniendo el mundo del software estadístico está sin duda ayudando a la mejora de la calidad de las medidas y de las aplicaciones quimiométricas. Hoy existen programas específicos de desarrollo de normas concretas como la ISO 13528, otros programas están anexando esos métodos estadísticos como módulos de descarga gratuita (con licencia) para sus usuarios. El desarrollo tecnológico acompaña a la mejora y fiabilidad de los resultados.
Análisis microbiológicos
En el campo concreto de la microbiología, ya hemos visto el amplio desarrollo que ha sufrido la bioluminiscencia ATP desde mitad de los 90 hasta hoy en tiempo de análisis (hoy bastan sólo 10 segundos), costes y sobre todo prevención, palabra difícil de entender en la microbiología como un proceso previo y no posterior.
Están apareciendo considerables mejoras en el campo del análisis microbiológico convencional como la microbiología rápida
82
Tendencias futuras
a través de PCR en tiempo real o el uso de la citometría de flujo que se encuentra en pleno desarrollo para el control microbiológico rápido y de la que cada vez aparecen más publicaciones. Esto no sólo ayudará a la mejora en los tiempos sino también en la fiabilidad de los resultados, con un control preciso de las cepas de microorganismos detectadas de forma selectiva sin necesidad de llevar a cabo estudios posteriores con un microscopio. Así, B.R. Gibson66 y otros, estudiaron respuestas de las levaduras al estrés asociado a la manipulación industrial cervecera; G. Valdameri67 y otros, han realizado cuantificaciones rápidas de bacterias asociadas a la raíz del arroz por citometría de flujo; M. Bressan68 y otros, han realizado un método rápido por citometría de flujo para evaluar la abundancia bacteriana en el suelo agrícola; De Roy K69 y otros, han caracterizado por huella digital microbiotas en agua usando citometría de flujo; R. Guzzon y R. Larcher70, han estudiado la aplicación de la citometría de flujo como monitorización de la producción de vino; B. Bottari71 y otros, realizaron la determinación de la carga microbiana de diferentes bebidas y alimentos mediante la evaluación de ATP intracelular por PCR en tiempo real; S. Shimotsu72 y otros, han llevado a cabo una investigación de la capacidad de levaduras en residuos de cerveza y desarrollo del método de PCR multiplex Dekkera / Brettanomyces para levaduras de residuos de cerveza.
Análisis sensorial
Es un campo muy investigado y, probablemente, sobre el que se ha desarrollado una mayor aplicación de la quimiometría. El conocimiento información que se desprende tras someter los
66
B.R. Gibson, S.J. Lawrence y otros, FEMS Microbiol Rev, 2007, 31, 535-569. 67
G. Valdameri y otros, Letters in Apllied Microbiology, 2015, 60(3), 237-241. 68
De Roy K y otros, Water Res., 2012, 46(3), 907-919. 69
De Roy K y otros, Environ Sci Pollut Res, 2015, 22, 11446-11455. 70
R. Guzzon, R. Larcher, Ann Microbiol, 2015, 65(4), 1865-1878. 71
B. Bottari y otros, Trends in Food Science & Technology, 2015, 44(1), 36-48. 72
S. Shimotsu y otros, J. of the Institute of Brewing, 2015, 121(2), 177-180.
83
Tendencias futuras
resultados sensoriales a técnicas sofisticadas de quimiometría aporta tal información de importancia a la industria alimentaria que se está convirtiendo en algo muy necesario.
Así, se han desarrollado formaciones, especializaciones y construcción de paneles de catadores de productos que complementan los análisis clásicos.
En el sector cervecero tiene cada vez más importancia este campo analítico. Cualquier fábrica de cervezas que se precie dispone de un buen panel especializado de catadores que servirá, como hemos dicho antes, no sólo para verificar el estado final del producto sino para descubrir defectos y sus orígenes.
Los catadores tienen establecidas unas frecuencias de degustación de producto y emiten resultados que serán tratados informáticamente para su estudio.
El nivel de publicaciones al respecto es altísimo, así podemos encontrar trabajos como el de M. Dresel73 y otros, en el que estudian el análisis “sensómico” de compuestos amargos clave de la resina dura de Lúpulo (Humulus lupulus L.) y su contribución al perfil de Amargo de la cerveza tipo Pilsen.
O trabajos donde la aplicación de la quimiometría a los resultados sensoriales es importante, como el de C.A. Blanco74 y otros, en el que estudian la correlación entre las concentraciones de Iso- -ácidos analizados por HPLC-PDA y su caracterización sensorial con ayuda de análisis de componentes principales, análisis de conglomerados, ANOVA y análisis discriminante lineal.
73
M. Dresel y otros, Journal of Agricultural and Food Chemistry, 2015, 63(13), 3402-3418. 74
C.A. Blanco y otros, Journal of Food and Nutrition Research, 2015, 3(1), 1-8
84
Tendencias futuras
Se pueden encontrar trabajos muy interesantes como el de C. Chaya75 y otros, que establecen léxicos para medir las respuestas emocionales a la cerveza.
G. Donadini76 y otros, han publicado un estudio sobre preferencia de consumidores y perfil sensorial de cervezas rojas italianas de baja fermentación.
75
C. Chaya y otros, Food Quality and Preference, 2015, 45, 100-112. 76
G. Donadini y otros, Food Research International, 2014, 58, 69-80.
85
CAPÍTULO 2
Tratamiento previo de los datos
86
87
ÍNDICE
RESUMEN
1 INTRODUCCIÓN
2 CIFRAS SIGNIFICATIVAS, REDONDEO Y ANÓMALOS
2.1 Cifras significativas
2.2 Redondeo
2.3 Tratamiento de datos anómalos, aberrantes (outliers)
2.3.1 Test Q de Dixon
2.3.2 Test G de Grubbs
2.3.3 Otros tests
3 TRATAMIENTO DE DATOS DEL CAPÍTULO 3
3.1 Cifras significativas
3.2 Redondeo
3.3 Tratamiento de datos anómalos
4 TRATAMIENTO DE DATOS DEL CAPÍTULO 4
4.1 Cifras significativas y lugares decimales
4.2 Redondeo
4.3 Tratamiento de datos anómalos
5 TRATAMIENTO DE DATOS DEL CAPÍTULO 5
5.1 Cifras significativas y lugares decimales
5.2 Redondeo
5.3 Tratamiento de datos anómalos
88
89
RESUMEN
En este Capítulo se describen los procedimientos utilizados para
tratar los datos del resto de Capítulos de la Tesis.
Cifras significativas, lugares decimales, reglas de redondeo y
cuándo se lleva a cabo, tratamiento de datos anómalos o
aberrantes (outliers), son importantes a la hora de emitir
resultados de calidad.
En esta Tesis se han utilizado las normas en tratamiento de
cifras significativas, redondeo y datos anómalos que marcan la
mayoría de estándares internacionales desde la propia IUPAC en
sus informes técnicos hasta los estándares internacionales
descritos en las normas ISO/IEC, guías Eurachem y Protocolos de
trabajo.
Actualmente es difícil encontrar trabajos, publicaciones o libros
donde se definan con claridad estas reglas que, considerándolas
implícitas en el proceso, en muchos casos no se emplean.
90
91
Introducción
TRATAMIENTO DE LOS DATOS
1 INTRODUCCIÓN
En el ámbito de los resultados de un laboratorio analítico existen muchas normas relacionadas con el tratamiento previo de los datos.
En este estudio profundizaremos exclusivamente en tres aspectos que se consideran claves para un estudio riguroso posterior de los datos: las cifras significativas, el redondeo del resultado y el tratamiento de resultados anómalos o aberrantes (outliers).
Existen muchas guías de referencia como la GUM o normas emanadas de organismos internacionales como IUPAC o NIST y, en casos como el tratamiento de puntos anómalos (outliers), sí hay alguna norma que marca ciertos tratamientos en particular para evitar resultados aberrantes. Aunque no son de obligatorio cumplimiento se trata de guías de uso conveniente.
92
Cifras significativas, redondeo y anómalos
2 CIFRAS SIGNIFICATIVAS, REDONDEO Y ANÓMALOS
2.1 Cifras significativas
Se definen las cifras significativas como aquellas que tienen un significado real, las que aportan alguna información.
Las mediciones, por definición, son inexactas y, por tanto, se deben expresar con sus cifras significativas. Se suele seguir el recurso de la incertidumbre de la medida por el cual la cifra significativa vendrá marcada por el resultado más pequeño que puede ser medido con ese equipo. Y siempre se suele asumir el convenio de cifras significativas: “cuando se expresa un número con sus cifras significativas, la última cifra siempre es incierta”.
Existen cinco reglas a tener en cuenta para establecer las cifras significativas de un resultado:
1) Cualquier digito diferente de cero es significativo
2) Los ceros entre dígitos significativos, son significativos
3) Los ceros situados a la izquierda de los dígitos diferentes de cero no son significativos, sirven sólo para fijar la posición del punto decimal.
4) Los ceros a la derecha del punto decimal se cuentan como significativos.
5) En los números enteros, los ceros situados a la derecha no se pueden afirmar como significativos. Para confirmar el número de cifras significativas se suele utilizar la notación científica.
Reglas para adición/sustracción y producto/división:
93
Cifras significativas, redondeo y anómalos
- En las sumas o en las restas, el número de dígitos del resultado lo marca la posición del menor dígito común de todos los números implicados. En el caso de las restas, se suelen perder cifras significativas, por lo que se recomienda realizar primero las sumas y dejar para el final las restas para perder el menor número de cifras significativas posible.
- En productos o divisiones, el resultado debe redondearse para que contenga el mismo número de dígitos significativos que el número de origen que posea menor número de dígitos.
Estas reglas deben aplicarse de una manera sensata. Durante los cálculos no se deben redondear los números porque pueden llevarnos a errores de redondeo. Se ha estudiado el efecto de la precisión y el rango dinámico de las calculadoras y ordenadores concluyendo que la precisión numérica todavía hoy finita, agravada por una mala elección de algoritmo, pueden originar errores significativos77. Pasados los cálculos, se pueden llevar a cabo los redondeos y el establecimiento de las cifras significativas necesarias.
2.2 Redondeo
En cuanto al redondeo de cifras, hay que explicar un pequeño matiz para ayudarnos a comprender que muchas calculadoras y paquetes científicos, incluidos los estadísticos, no aplican y que sufren un sesgo positivo que se va acumulando en los resultados finales.
Cuando disponemos de un resultado que debe redondearse para mantener las cifras significativas establecidas para esa medida, hay tres reglas básicas a seguir:
77
J. Assoc. Off. Anal. Chem. 77 (1994) 777-781.
94
Cifras significativas, redondeo y anómalos
- Dígito a la derecha del último requerido menor que 5: no se modifica el dígito precedente.
- Dígito a la derecha del último requerido mayor que 5: se aumenta una unidad el dígito precedente.
- Dígito a la derecha del último requerido igual a 5. Este es el caso problemático. La mayoría de calculadoras, programas de cálculo y paquetes estadísticos suelen tratarlo aumentando en una unidad el dígito precedente. Esto proporciona un sesgo siempre positivo a la medida que, arrastrado en varios cálculos va aumentando el error. La fórmula propuesta es dividir en dos subreglas:
o Si el dígito anterior al 5 es par, no se modifica.
o Si el dígito anterior al 5 es impar, se aumenta en una unidad.
Esta forma de redondear el 5 problemático produce un efecto de “reparto” que las propias reglas de probabilidad se encargan de acercarlo al 50% en todos los casos y no se arrastra sesgo positivo.
En nuestro caso, se ha utilizado la forma comentada anteriormente como correcta (sin sesgo positivo) en todos los números para conseguir las cifras significativas expuestas anteriormente y siempre al final de todos los cálculos para evitar el arrastre de errores de redondeo.
2.3 Tratamiento de datos anómalos, aberrantes (outliers)
Sobre el tratamiento de datos anómalos o aberrantes hay más estudios y existen diversos procedimientos estadísticos de descarte con diferentes niveles de confianza. Los principales métodos en tratamientos básicos de anómalos son el test Q de Dixon, el test G de Grubbs y el test C de Cochran. Hay más
95
Cifras significativas, redondeo y anómalos
métodos, como el de Youden, pero se utiliza específicamente para test de ensayos de aptitud entre laboratorios.
Se asume que los datos se distribuyen normalmente y este tipo de distribución se caracteriza completamente por la media y la desviación estándar. Si tenemos un dato anómalo en nuestro conjunto de datos, quiere decir que tenemos un valor que no es representativo para el resto del conjunto y esto tiene una gran influencia.
Los diferentes tests nombrados anteriormente no suelen dar los mismos resultados. Esto significa que rechazar un dato anómalo no es asunto baladí y que no deberían usarse los métodos estadísticos de cualquier forma. En realidad, deberían realizarse para identificar muestras problema.78 Es importante investigar si hay una causa real para el dato anómalo encontrado (error de transcripción, de cálculo o de análisis). Si ese fuese el caso, se puede eliminar el anómalo del conjunto de datos. Si se obtienen muchos outliers puede ser indicativo de un método analítico incontrolado y que deben tomarse acciones correctoras sobre el propio método.
El Comité Analítico de la RSC indica que el rechazo de los valores anómalos en base estadística a partir de datos destinados a definir la variabilidad de un método analítico, puede subestimar de manera importante a la varianza.79
Si se eliminan anómalos de un conjunto de datos, debe indicarse que estaban presentes.
2.3.1 Test Q de Dixon
Es probablemente el más popular para detectar datos anómalos por su facilidad de cálculo. Se basa en la comparación de la
78
D.L. Massart en Handbook of Chemometrics and Cualimetrics Part. A, pag. 109 79
Analytical Methods Committee, Analyst, 1989, 114, 1693-1697
96
Cifras significativas, redondeo y anómalos
diferencia entre el valor sospechoso y su vecino más cercano frente al recorrido de las medidas. Este test suele usarse mal porque no siempre se compara esta diferencia con el recorrido del conjunto de datos sino que, dependiendo del número de valores, el recorrido se modifica, así:
El valor calculado Q se compara con el valor crítico en las tablas con el nivel de confianza elegido. Si el valor Q calculado es superior al valor crítico, se trata de un dato anómalo.
2.3.2 Test G de Grubbs
Este test se basa en el cálculo de:
Donde es el valor sospechoso, la media de la muestra y la desviación estándar de la muestra.
97
Cifras significativas, redondeo y anómalos
Si el estadístico es menor o igual que su valor crítico al 5%, se acepta como correcto, si es mayor que el valor crítico al 5% pero menor que su valor crítico al 1%, se considera dudoso, y si el estadístico es mayor que el valor crítico al 1% se considera atípico.
2.3.3 Otros tests
Existen otros muchos tests para el tratamiento de datos anómalos o aberrantes.80
Entre ellos, vamos a destacar otro test más, el test C de Cochran:
Dado un conjunto p de desviaciones estándar si, todas calculadas a partir del número n de resultados replicados, el test estadístico C es:
Donde es la desviación estándar más alta en el conjunto.
Si el estadístico es menor o igual que su valor crítico al 5%, se acepta como correcto, si es mayor que el valor crítico al 5% pero menor que su valor crítico al 1%, se considera dudoso, y si el estadístico es mayor que el valor crítico al 1% se considera atípico.
Normalmente, el criterio de Cochran se aplica cuando todas las desviaciones estándar son derivadas del mismo número n de resultados de pruebas obtenidas en condiciones de repetibilidad.81
El criterio de Cochran es sólo aplicable a datos atípicos altos.
80
V. Barnett, T. Lewis en Outliers in statistical data, 1994, 3rd
edition, Ed. Wiley 81
ISO 5725-2:1994, Accuracy (trueness and precision) of measurement methods and results - Part 2: Basic method for the determination of repeatability and reproducibility of a standard measurement method, punto 7.3.3
98
Datos del capítulo 3
3 DATOS DEL CAPÍTULO 3
3.1 Cifras significativas y lugares decimales
Se ha utilizado la siguiente tabla de cifras significativas, en función del parámetro:
EA: 3 Alcohol: 3 ESP: 2-3 GAF: 3
Color: 2-3 Amargo: 2-3 CO2: 3 pH: 3
VDK: 2-3 SF: 3-4 Turb.: 3-4 Espuma: 2-3
Isoh: 2-3 THIA: 2 SO2: 2
Se han aplicado las reglas tanto en sustracción/adición como en producto/división y siempre al final de los cálculos.
En cuanto a lugares decimales:
EA: 2 Alcohol: 2 ESP: 2 GAF: 2
Color: 1 Amargo: 1 CO2: 1 pH: 2
VDK: 0 SF: 2 Turb.: 2 Espuma: 0
Isoh: 1 THIA: 1 SO2: 1
3.2 Redondeo
El redondeo se ha realizado siempre al final de cada operación de cálculo y manteniendo el número de decimales marcado excepto para el caso de los estadísticos de cálculo que aumentan una cifra significativa al número original (media, mediana, desviación estándar, etc.).82
82
ISO 5725-2:1994, Accuracy (Trueness and Precision) of Test Measurements. Puntos 7.2.9 y 7.2.10
99
Datos del capítulo 3
3.3 Tratamiento de datos anómalos
El tratamiento para detectar anómalos en este capítulo no tiene sentido porque los resultados obtenidos son reales y las variaciones entre diferentes lotes, días y tipos de cerveza corresponden no a un sesgo desconocido sino a la propia variación del proceso de fabricación.
4 DATOS DEL CAPÍTULO 4
4.1 Cifras significativas y lugares decimales
En la luminometría ATP sólo se obtiene un parámetro que se mide en RLU (unidades relativas de luz) y se muestra en pantalla del dispositivo de medida con números enteros y cifras significativas desde 1 hasta n (en función del resultado).
Al tratarse de números enteros, sólo se han aplicado lugares decimales a los promedios y porcentajes calculados (un sólo decimal).
4.2 Redondeo
El redondeo se ha realizado siempre al final de cada operación de cálculo y manteniendo el número de decimales marcado excepto para el caso de los estadísticos de cálculo que aumentan una cifra significativa al número original (media, mediana, desviación estándar, etc.).83
4.3 Tratamiento de datos anómalos
El tratamiento para detectar anómalos en este capítulo no tiene sentido porque los resultados obtenidos son reales y las
83
ISO 5725-2:1994, Accuracy (Trueness and Precision) of Test Measurements. Puntos 7.2.9 y 7.2.10
100
Datos del capítulo 4
variaciones entre diferentes mediciones están directamente relacionadas con la presencia de ATP en la muestra. Variaciones enormes de RLU sólo son explicadas no por varianzas de la medida sino por el estado de limpieza del punto de muestreo.
5 DATOS DEL CAPÍTULO 5
5.1 Cifras significativas y lugares decimales
En cualimetría se han usado las mismas cifras significativas que las explicadas en el apartado 3 de este capítulo.
Desaparecen los parámetros GAF, SF, Turbidez y Espuma y aparecen como nuevos los siguientes:
Diacetilo Producido durante la fermentación. Se analiza mediante cromatografía de gases con ayuda de un espacio de cabeza, y se expresa en g/L con 1-3 cifras significativas y sin decimales.
TF Test Forzado. Es un análisis forzado a altas y bajas temperaturas durante tiempos establecidos y se analiza finalmente la turbidez en un turbidímetro. Se expresa en unidades EBC, con 3-4 cifras significativas y dos decimales.
5.2 Redondeo
El redondeo se ha realizado siempre al final de cada operación de cálculo y manteniendo el número de decimales marcado excepto para el caso de los estadísticos de cálculo que aumentan una cifra significativa al número original (media, mediana, desviación estándar, etc.).84
84
ISO 5725-2:1994, Accuracy (Trueness and Precision) of Test Measurements. Puntos 7.2.9 y 7.2.10
101
Datos del capítulo 5
5.3 Tratamiento de datos anómalos
En este capítulo hay que afinar en la búsqueda de aberrantes porque el tratamiento no es eliminarlos del resultado final sino de los cálculos. Un aberrante en un ensayo de aptitud puede indicar que el laboratorio es aberrante y no se debe eliminar, aparecerá con z-scores muy altos (en valor absoluto) pero debe indicarse. Lo que se suele hacer es eliminar el dato o los datos de los cálculos de los estadísticos clave para evitar degradación de los mismos. El establecimiento de un correcto valor asignado y una correcta desviación estándar del ensayo, es importante para poder extraer información relevante para cada laboratorio sobre sus sesgos analíticos y poder realizar las investigaciones oportunas y derivar de ellas las operaciones correctoras que tengan que llevar a cabo (ajustes, calibraciones, cambios en el o del método analítico, incluso sustitución de los equipos analíticos).
El tratamiento que se ha llevado a cabo en estos juegos de datos ha sido con el test G de Grubbs, ampliamente citado en la documentación utilizada85-86-87 y que ha reemplazado al test Q de Dixon como método recomendado por la norma ISO 17025 para el tratamiento de datos anómalos o aberrantes.
En los datos utilizados en este capítulo, sólo se han encontrado datos anómalos en una ronda de CO2, que se verá en uno de los ejemplos a continuación. Los ejemplos que visualmente podrían hacernos dudar son los siguientes:
Ronda 8 del parámetro amargo, resultados individuales:
85
ISO 13528:2005 (2005) Statistical methods for use in proficiency testing by interlaboratory
comparisons. International Organization for Standardization 86
Selection, use and interpretation of Proficiency Testing (PT) schemes, Eurachem, 2nd
ed. 2011 87
M. Thompson, S.L.R. Ellison, R. Wood, Pure Appl. Chem., 78 (1), 2006, 145-196. The
International harmonized protocol for the Proficiency Testing of analytical chemistry laboratories (IUPAC technical report).
102
Datos del capítulo 5
Resultados Lab
1 Lab
2 Lab
3 Lab
4 Lab
5 Lab
6 Lab
7 Lab
8
x1 22,9 19,6 18,4 20,4 19,9 18,9 19,2 20,4
x2 21,0 19,2 18,2 20,1 19,6 19,5 19,2 20,2
x3 21,5 19,0 18,2 20,3 19,5 19,6 18,9 20,6
x4 22,4 18,3 18,3 19,6 19,8 19,5 19,1 20,3
A simple vista, los datos del laboratorio 1 son dudosos. Podría
tratarse de un laboratorio anómalo o de un resultado anómalo dentro de ese laboratorio. Por tanto, debemos distinguir entre un dato anómalo (resultado individual) o de un grupo de datos anómalos (todos los resultados de ese laboratorio dudoso.
Para ello, aplicamos el test de Grubs:
Calculemos los datos que vamos a necesitar, es decir la media de cada laboratorio, media total, desviación estándar total:
Lab 1 Lab 2 Lab 3 Lab 4 Lab 5 Lab 6 Lab 7 Lab 8
21,95 19,03 18,28 20,10 19,70 19,37 19,10 20,38
Y como valores totales, tendremos:
Tomemos el dato promedio del laboratorio 1 (21,95) y:
103
Datos del capítulo 5
Y comparémoslo con la G teórica de las tablas (a un 95% de
confianza):
G=2,126 (para 8 valores, que son los 8 promedios) Como es mayor que el calculado, no se rechaza.
Veamos ahora un dato individual de ese laboratorio 1, el más alto: 22,9 y comprobemos luego la tabla en n=32 datos (8 laboratorios y 4 valores cada uno),
El valor de G por la tabla estadística (para n=32 y 95% de
confianza) es 2,938 que sigue siendo más alto que el calculado y no debe rechazarse.
Otro ejemplo en la ronda 39 del parámetro CO2
Resultados Lab 1 Lab 2 Lab 3 Lab 4 Lab 5 Lab 6 Lab 7 Lab 8
x1 5,36 5,01 5,02 5,10 5,12 5,11 5,10 5,09
x2 5,38 5,00 5,00 5,12 5,10 5,10 5,09 5,10
x3 5,39 4,94 5,00 5,09 5,12 5,09 5,07 5,09
x4 5,37 4,93 5,01 5,10 5,14 5,06 5,12 5,07
104
Datos del capítulo 5
Parece que el laboratorio 1 puede tener datos anómalos. Hacemos las mismas comprobaciones:
Lab 1 Lab 2 Lab 3 Lab 4 Lab 5 Lab 6 Lab 7 Lab 8
5,375 4,970 5,008 5,103 5,120 5,090 5,095 5,088
Para el laboratorio:
G por tablas es 2,126 que es menor que el calculado, por tanto
se considera dudoso y no se usa para el cálculo de estadísticos.
No es necesario llevar a cabo el estudio del dato más alto de ese laboratorio puesto que todo el grupo de datos ha sido considerado dudoso.
En esta ronda, el laboratorio 1 no se tiene en cuenta para los cálculos de los estadísticos clave (valor asignado que es la mediana del grupo y s* que es la desviación estándar del ensayo), pero recibe su valor z-score para su seguimiento y control.
Este es el único caso en todas las rondas de los parámetros estudiados donde debe considerarse dudoso el resultado de un laboratorio.
Hay coordinaciones de esquemas de ensayos de aptitud donde se utilizan otros procedimientos propios para detectar datos o laboratorios anómalos y no considerarlos en los cálculos.
105
Datos del capítulo 5
En el caso del BAPS, esquema de la compañía LGC Standards Int. utilizan un intervalo calculado a partir de:
Donde es el valor asignado para esa ronda (en nuestro caso la
mediana de la ronda, incluyendo todos los datos) y SDPA es la desviación estándar del ensayo para ese parámetro (en nuestro caso s* calculada por el algoritmo A).88
Veamos lo que ocurre con este método en nuestros dos ejemplos:
Ejemplo 1. Ronda 8 del parámetro amargo
y
El intervalo creado es
El laboratorio 1 no sería anómalo pero un resultado individual sí (el resultado 22,9)
Ejemplo 2. Ronda 38 del parámetro CO2
y
El intervalo creado es
En este caso el laboratorio 1 no se consideraría anómalo ni ninguno de sus resultados individuales.
88
ISO 13528:2005 (2005) Statistical methods for use in proficiency testing by interlaboratory
comparisons. International Organization for Standardization. Annex C.1
106
Datos del capítulo 5
Como vemos, es muy importante establecer los métodos de cálculo para el tratamiento de datos anómalos. Existen varios procedimientos pero lo más importante es tener consensuado, o al menos informado, al participante de cuáles son los métodos usados para el cálculo y rechazo de anómalos.
107
CAPÍTULO 3 Tratamientos quimiométricos de datos físico- químicos de diferentes muestras de cerveza
108
109
ÍNDICE
RESUMEN
1 PARÁMETROS ANALÍTICOS SELECCIONADOS 2 ANÁLISIS DISCRIMINANTE LINEAL (ADL)
2.1 Cervezas tipo Pils Lager 5,6 y Strong Lager 2.2 Cervezas con recorrido de alcohol entre 3,0% y 5,0% 2.3 Cervezas de todo recorrido de alcohol 2.4 Discriminación entre diferentes fábricas de un mismo tipo
de cerveza 2.5 Cervezas de mercado
3 COMPARATIVA ENTRE PAQUETES DE SOFTWARE ESTADÍSTICOS
4 ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS) 4.1 Cervezas Pils 5,6 y Pils Strong Lager 4.2 Cervezas con recorrido de alcohol entre 3,0% y 5,0% 4.3 Cervezas con todo recorrido de alcohol 4.4 Mismo tipo de cerveza producida en diferentes fábricas 4.5 Diferentes marcas del mercado
110
111
RESUMEN
En este Capítulo se describen dos métodos quimiométricos importantes dentro del campo del análisis clasificatorio o de reconocimiento de pautas supervisado: el análisis discriminante lineal y el análisis de conglomerados.
En el primero se van a tratar dos grupos independientes de cervezas, en función de su contenido alcohólico y un tercer grupo donde se encuentran unidos los dos anteriores y algunas cervezas más de la gama sin alcohol. Se comprobará el poder discriminante del análisis en función de 15 parámetros analíticos seleccionados y se optimizarán las funciones discriminantes para poder realizar las discriminaciones con el menor número de parámetros analíticos posibles. Asimismo, vamos a estudiar la discriminación de un tipo de cerveza hecha en diferentes fábricas.
Se analizarán también 16 marcas de cerveza concretas con el mismo método.
En el segundo método, de análisis de conglomerados, vamos a estudiar los mismos grupos que en el anterior pero esta vez como técnica complementaria al análisis discriminante lineal y que viene a apoyar los resultados.
También se va a realizar un estudio comparativo de diferentes programas estadísticos y las variaciones encontradas en la aplicación de estos métodos.
112
113
Parámetros analíticos seleccionados
1 PARÁMETROS ANALÍTICOS SELECCIONADOS
Los parámetros analíticos seleccionados son los más habituales en un laboratorio cervecero. Son los siguientes:
EA Extracto aparente. Se trata del contenido de azúcares que permanece en la cerveza tras su fermentación. Se expresa en % en peso.
Alc Alcohol. Es el contenido alcohólico del producto expresado en % volumen.
ESP Extracto Seco Primitivo, también llamado Extracto Original. Es el contenido en azúcares que tenía el mosto original antes de entrar en el proceso de fermentación. Se expresa en % en peso, como EA.
GAF Grado Aparente de Fermentación, también llamado Atenuación Aparente. Es la máxima disminución de azúcares a la que ha llegado el mosto durante el proceso de fermentación. Se expresa en %.
114
Parámetros analíticos seleccionados
Color Color. Es el color que muestra el producto y viene expresado en unidades EBC, medidas a 430 nm en un espectrofotómetro de absorción molecular.
Amar. Amargo. Es la sensación de amargor que despide una cerveza. Se expresa en unidades BU (Biterness Units) y se mide en un espectrofotómetro de absorción molecular a 275 nm.
CO2 Anhídrido carbónico. Es la cantidad de gas carbónico que va disuelto en cerveza. Se expresa en g/L.
pH pH final de la cerveza.
VDK Dicetonas vecinales. Es la suma de dos dicetonas vecinales, el diacetilo y la pentanodiona que se producen durante la fermentación y pueden dar lugar a malos aromas en el producto final. Se analizan por cromatografía de gases con ayuda de un headspace y se expresan en g/L.
S.F. Sensibilidad al frío. Es el resultado de someter una muestra a frío extremo durante un tiempo determinado. Así se mide la inestabilidad coloidal de forma preventiva. Se expresa en unidades EBC de turbidez.
Turb. Turbidez. Es la medida de la turbidez del producto en un turbidímetro con un ángulo de medida de 90° y se expresa en unidades EBC de turbidez.
Espuma Espuma. Mide la resistencia de la espuma en el tiempo. Se utiliza el método Sigma: con ayuda de un embudo y cronómetro se miden los diferentes tiempos de colapso de la espuma vertida sobre el embudo.
Isoh Iso- -ácidos. Están relacionados con el amargo anterior. Se miden por HPLC-DAD y son la suma de hasta cuatro ácidos diferentes. Se expresan en mg/L.
115
Parámetros analíticos seleccionados
THIA Tetrahidroiso- -ácidos. Como el anterior, está relacionado con el amargo y se miden por HPLC-DAD. Se expresan en mg/L.
SO2 Sulfitos. Es un potente alérgeno que está controlado legalmente. Se mide por flujo segmentado tras su derivatización con pararrosanilina. Se expresa en mg/L.
La recopilación de datos ha sido diaria durante un año y se ha extraído una muestra representativa mensual que corresponde al promedio de todas las producciones realizadas durante cada mes. Las pruebas se han realizado, en la mayoría de los casos, sobre doce filas de datos correspondientes cada una de ellas a un mes del año excepto en aquellos casos en que no ha habido producción todos los meses.
Se ha comprobado la robustez de los procedimientos con resultados de años anteriores y posteriores.
2 ANÁLISIS DISCRIMINANTE LINEAL (ADL)
Para llevar a cabo esta técnica, se ha hecho uso, fundamentalmente, del software estadístico Statgraphics Centurion XVII que lo agrupa dentro de los llamados métodos de clasificación, junto a las redes neuronales.
La población de datos se ha formado agrupando todos los parámetros analíticos diarios que se analizan de cada muestra de cerveza y promediando cada mes. Así, obtenemos una matriz de datos por cada tipo de cerveza diferente con doce filas (los doce meses del año salvo algunos tipos que no se producen todos los meses del año) y dieciséis columnas (quince parámetros más una columna que identifica el tipo de cerveza al que se ha realizado el análisis). De esta forma conseguimos tener datos más robustos de
116
Análisis discriminante lineal (ADL)
cada parámetro según el tipo de cerveza y minimizamos las posibles desviaciones del proceso que dan lugar a resultados analíticos, en principio aberrantes o anómalos, pero que en realidad se tratan de variaciones en el proceso.
En las fábricas de cerveza se suele realizar el proceso siguiendo unos estándares de producción que derivan en unas especificaciones de proceso y producto para cada parámetro importante a controlar. Si consideramos que un producto que sale al mercado forma para el consumidor final un “recuerdo” de marca, las industrias cerveceras no cambiarán el perfil del producto en mucho tiempo y si lo hacen es en pequeñas variaciones para que el consumidor final no observe ningún cambio importante en ese “recuerdo” de marca. Así, podemos considerar como punto de apoyo para el uso de este procedimiento quimiométrico que todas las marcas de cerveza usadas no suelen tener variaciones importantes en sus especificaciones paramétricas y lograremos establecer un llamado “perfil paramétrico” del producto.
Por otra parte, y considerando las variaciones que se observan en los resultados de los parámetros habituales entre los diferentes tipos de cerveza que se producen en una industria cervecera, podemos pensar que se puede llevar a cabo proceso de discriminación con cierta garantía de éxito.
Con estas consideraciones iniciales llevo a cabo el procedimiento de discriminación en primer lugar con distintos tipos de cerveza que podemos encontrarnos.
2.1 Cervezas tipo Pils Lager 5,6 y Strong Lager
Vamos a considerar un primer grupo de cervezas con recorrido de alcohol en volumen cercano, desde los 5,5% hasta 7% (Strong Pils Lager).
117
Cervezas tipo Pils Lager 5,6 y Strong Lager
La tabla de datos utilizados, Tabla 3.1, está compuesta por 15 parámetros analíticos habituales en el análisis de la cerveza y cada fila de cada tipo diferente, procede a su vez de un promedio de todas las producciones realizadas en un mes. Así, se pueden observar 12 filas por cada tipo de cerveza correspondientes a los 12 meses del año, excepto aquellos tipos de cerveza que, por su volumen producido, no se realiza todos los meses.
Como tipos de cerveza he elegido tres diferentes Pils Lager de 5,6% de alcohol en volumen (Pils 5,6 A, Pils 5,6 B y Pils 5,6 C) y dos tipos diferentes de Strong Lager, con un alcohol en torno a 6,5% (Pils Strong A, Pils Strong B).
118
Tipo EA Alc ESP GAF Color Amar. CO2 pH VDK S.F. Turb. Espuma Isoh THIA SO2
Pils 5,6 A 2,53 5,64 13,02 80,56 7,5 28,0 5,34 4,26 47 2,66 0,62 127 24,9 4,6 7,2
Pils 5,6 A 2,56 5,61 13,02 80,21 7,2 27,7 5,39 4,36 95 2,97 0,69 130 24,0 4,8 7,5
Pils 5,6 A 2,46 5,62 12,97 81,07 7,4 28,3 5,36 4,23 65 2,54 0,57 129 25,6 4,2 6,4
Pils 5,6 A 3,07 5,66 12,98 81,50 7,5 27,2 5,32 4,17 32 2,64 0,59 131 24,5 3,7 8,0
Pils 5,6 A 2,32 5,68 12,98 82,17 7,4 28,2 5,34 4,16 39 2,97 0,63 127 25,0 4,1 4,8
Pils 5,6 A 2,75 5,49 13,00 78,86 7,3 27,3 5,34 4,16 52 2,51 0,52 127 23,5 4,0 7,6
Pils 5,6 A 2,72 5,51 13,02 79,00 7,3 28,0 5,35 4,10 44 2,58 0,49 136 24,3 4,0 4,3
Pils 5,6 A 2,74 5,50 12,99 78,89 7,3 28,3 5,27 4,11 66 2,65 0,49 141 24,2 3,8 4,5
Pils 5,6 A 2,74 5,51 13,03 78,84 7,6 28,2 5,26 4,09 63 2,02 0,38 133 23,9 4,3 2,0
Pils 5,6 A 2,89 5,46 13,05 77,79 7,2 27,2 5,24 4,15 63 1,66 0,36 134 24,0 4,1 7,8
Pils 5,6 A 2,71 5,52 13,01 79,00 7,4 28,2 5,34 4,12 56 1,95 0,42 131 24,5 4,2 5,0
Pils 5,6 A 2,54 5,61 13,00 80,63 7,5 27,9 5,36 4,23 66 1,76 0,40 127 24,0 4,0 6,5
Pils 5,6 B 2,50 5,65 13,03 80,58 9,2 26,5 5,33 4,28 77 3,36 0,77 131 23,2 4,2 5,7
Pils 5,6 B 2,54 5,64 13,06 80,44 9,1 26,1 5,29 4,37 75 2,81 0,64 126 22,7 4,4 4,5
Pils 5,6 B 2,49 5,63 13,02 80,92 9,0 26,2 5,33 4,21 61 2,95 0,66 131 23,5 3,9 5,8
Pils 5,6 B 2,47 5,64 13,01 81,10 8,9 25,9 5,32 4,13 32 3,10 0,66 126 22,8 3,6 3,7
Pils 5,6 B 2,44 5,69 13,05 81,29 9,0 26,5 5,34 4,12 40 3,46 0,73 132 23,7 3,8 3,5
Pils 5,6 B 2,64 5,59 13,05 79,87 9,1 27,0 5,33 4,06 51 2,75 0,57 128 23,7 4,0 9,0
Pils 5,6 B 2,64 5,55 13,03 79,85 9,3 27,5 5,36 4,05 48 2,76 0,57 127 24,9 4,1 3,7
Pils 5,6 B 2,68 5,54 13,01 79,50 9,2 26,9 5,36 4,09 58 2,81 0,56 128 23,7 4,1 3,0
119
Pils 5,6 B 2,75 5,53 13,07 79,00 9,5 27,6 5,29 4,04 54 2,85 0,57 128 23,5 4,0 4,0
Pils 5,6 B 2,74 5,50 13,05 79,20 8,9 26,7 5,25 4,12 47 1,90 0,45 138 22,6 4,1 4,7
Pils 5,6 B 2,67 5,55 13,02 79,70 9,1 27,0 5,29 4,09 48 2,40 0,52 135 23,5 4,3 4,0
Pils 5,6 B 2,60 5,59 13,04 80,13 9,1 26,7 5,32 4,14 52 2,83 0,61 130 23,4 4,0 4,7
Pils 5,6 C 2,51 5,62 12,99 80,50 8,1 24,3 5,37 4,19 43 3,44 0,78 127 22,6 3,6 4,5
Pils 5,6 C 2,55 5,64 13,06 80,60 8,0 23,8 5,44 4,25 92 4,83 1,16 125 21,5 3,8 2,0
Pils 5,6 C 2,52 5,67 13,09 80,80 8,0 24,1 5,38 4,15 53 3,95 0,90 126 22,2 3,3 1,3
Pils 5,6 C 2,40 5,72 13,06 81,57 8,0 23,8 5,38 4,07 33 3,26 0,75 124 22,6 3,1 1,8
Pils 5,6 C 2,43 5,68 13,04 81,40 8,1 23,9 5,41 4,03 54 3,29 0,72 125 22,4 3,5 2,4
Pils 5,6 C 2,56 5,60 13,02 80,31 7,9 23,7 5,35 4,04 48 2,71 0,58 127 20,4 2,9 2,8
Pils 5,6 C 2,64 5,56 13,02 79,54 8,1 23,9 5,39 4,02 44 3,24 0,75 132 21,4 3,3 2,0
Pils 5,6 C 2,66 5,53 12,99 79,44 8,0 24,0 5,34 4,05 52 3,30 0,69 134 22,7 3,4 1,0
Pils 5,6 C 2,65 5,56 13,01 79,57 8,0 22,7 5,35 4,04 50 3,63 0,77 131 20,9 3,2 3,0
Pils 5,6 C 2,57 5,61 13,03 80,25 8,0 23,3 5,31 4,10 50 2,99 0,70 132 21,2 2,8 2,3
Pils 5,6 C 2,54 5,61 13,01 80,29 7,9 23,4 5,34 4,05 48 3,30 0,75 134 19,8 3,6 2,0
Pils 5,6 C 2,37 5,66 12,94 81,71 8,3 23,9 5,31 4,24 48 3,59 0,86 128 20,6 3,0 2,0
Pils Strong A 3,11 6,50 15,00 79,00 12,4 25,0 5,70 4,17 53 1,70 0,55 124 21,4 3,7 8,0
Pils Strong A 3,24 6,40 14,90 78,00 12,2 27,0 5,20 4,16 52 1,26 0,54 135 23,7 3,1 7,0
Pils Strong A 3,24 6,40 15,00 78,00 14,7 24,0 5,80 4,20 54 2,21 0,74 129 19,8 3,7 7,0
Pils Strong A 3,30 6,40 15,10 78,00 14,3 23,0 5,80 4,09 49 2,09 0,72 127 19,6 3,3 4,0
Pils Strong A 3,20 6,40 15,00 79,00 13,2 25,0 5,80 4,17 86 1,70 0,40 131 21,7 3,2 7,0
Pils Strong A 3,00 6,50 15,00 80,00 12,7 26,0 5,70 4,15 60 2,79 1,00 131 20,9 3,3 9,0
120
Tabla 3.1. Datos analíticos de cervezas Pils 5,6 y Pils Strong
Pils Strong A 3,01 6,50 14,90 80,00 12,4 25,0 5,80 4,10 44 2,98 0,90 111 21,4 3,2 10,0
Pils Strong A 3,47 6,30 15,00 77,00 12,5 28,0 5,80 4,11 38 1,70 0,59 130 23,3 3,4 7,0
Pils Strong A 3,43 6,30 15,10 77,00 12,5 26,0 5,70 4,16 37 2,04 0,64 120 23,2 3,2 6,0
Pils Strong A 3,46 6,40 15,20 77,00 12,1 28,0 5,80 4,20 58 1,84 0,62 119 22,1 2,6 6,0
Pils Strong B 3,70 6,20 15,00 76,00 17,9 30,0 5,50 4,18 66 1,60 0,54 128 26,5 3,4 6,0
Pils Strong B 3,80 6,20 15,20 75,00 20,3 32,0 5,60 4,21 79 1,70 0,80 128 28,6 3,7 10,0
Pils Strong B 3,80 6,20 15,20 75,00 18,6 31,0 5,70 4,17 77 1,90 0,75 115 27,4 3,4 6,0
Pils Strong B 3,60 6,30 15,20 77,00 18,6 35,0 5,70 4,17 72 1,00 0,61 127 30,0 4,3 6,0
Pils Strong B 3,60 6,30 15,10 76,00 18,0 33,0 5,60 4,12 71 1,60 0,60 122 28,7 4,3 9,0
Pils Strong B 3,30 6,40 15,00 78,00 18,2 32,0 5,70 4,11 73 1,70 0,63 124 27,4 4,4 9,0
Pils Strong B 3,40 6,20 15,00 76,00 18,6 33,0 5,70 4,10 113 2,00 0,80 130 27,4 4,3 8,0
Pils Strong B 3,50 6,30 15,10 77,00 18,7 32,0 5,60 4,14 100 2,10 0,93 131 28,0 4,1 6,0
Pils Strong B 3,60 6,30 15,20 76,00 18,4 31,0 5,70 4,11 65 2,30 0,80 123 28,1 4,4 9,0
Pils Strong B 3,40 6,30 15,00 77,00 18,5 34,0 5,60 4,03 78 1,50 0,66 122 30,3 3,9 9,0
121
Cervezas tipo Pils Lager 5,6 y Strong Lager
Analizando en detalle el resultado matemático del análisis, en la Tabla 3.2, mostrada a continuación y que representa los autovalores, varianzas explicadas y correlaciones canónicas:
Función Discriminante
Autovalor Porcentaje
Relativo Correlación
Canónica
1 618,187 93,68 0,99919 2 36,4011 5,52 0,98654 3 4,54025 0,69 0,90526 4 0,79693 0,12 0,66595
Tabla 3.2. Composición de las funciones discriminantes (autovalores, porcentaje explicado de varianza y correlaciones canónicas)
Como tenemos cinco niveles de “Tipo” (cinco cervezas
diferentes), es de esperar encontrar cuatro posibles funciones discriminantes. En la columna “Porcentaje relativo”, que muestra el porcentaje de la varianza explicado por la función, se observa que las dos primeras funciones explican el 99,4% del modelo (93,28% + 5,86%), más que suficiente para confiar en los resultados obtenidos.
En la Tabla 3.3 se observan las funciones derivadas y entre otros estimadores, lo más importante, el P-valor. Los P-valores por debajo de 0,05 indican una diferencia estadísticamente significativa de la función discriminante correspondiente, con un nivel de confianza del 95%. En este caso, todas las funciones muestran una diferencia estadísticamente significativa.
Estos resultados de P-valor nos hacen presagiar que la representación gráfica de las dos primeras funciones discriminantes, F1 frente a F2, que explican el 99,4% del modelo, va a separar bien los diferentes niveles “Tipo” de cerveza.
122
Cervezas tipo Pils Lager 5,6 y Strong Lager
Funciones Derivadas
Lambda de Wilks
Chi-Cuadrada GL P-valor
1 0,00000433743 555,6703 60 0,0000 2 0,00268568 266,3919 42 0,0000 3 0,100448 103,4153 26 0,0000 4 0,556505 26,3736 12 0,0095
Tabla 3.3. Composición de las funciones derivadas y P-valor
La Figura 3.1 muestra las funciones F1 (eje horizontal) frente a F2 (eje vertical) y en él se observa una muy buena diferenciación (discriminación) entre las dos cervezas Pils Strong (A y B), representadas por puntos con forma de cuadrado, tanto en el eje horizontal (F1) como en el eje vertical (F2), y entre estas y las tres diferentes cervezas Pils 5,6 (A, B y C), representadas por puntos con forma de círculo. No así estas últimas entre sí, aunque no es mala separación ya que los centroides de cada grupo, representados por cruces, sí se encuentran más separados y si bien no muestran separación respecto a F1 sí lo hacen bien respecto a F2.
Como se puede observar, las Pils Strong (puntos simbolizados por cuadrados rellenos) se encuentran bien discriminadas entre sí (separadas en el gráfico) y con respecto a las Pils 5,6 pero estas últimas no se encuentran bien discriminadas entre sí, tanto en la función 1 (eje horizontal) como por la función 2 (eje vertical).
El modelo matemático ha logrado encontrar cuatro funciones discriminantes que son combinaciones lineales de las variables originales y que tienen diferentes coeficientes. Estos se muestran en la Tabla 3.4.
Estos valores de coeficientes “A” para cada variable original están calculados a partir de los resultados analíticos de las
123
Cervezas tipo Pils Lager 5,6 y Strong Lager
variables originales estandarizadas. De esta manera, no introducimos diferenciaciones ficticias derivadas de resultados, en valor absoluto, muy diferentes entre sí (como Espuma en la zona de los 100 y Turbidez en la zona de la unidad con dos decimales, por ejemplo). Con los valores estandarizados logramos representar los valores sobre la misma escala en valores absolutos porque lo que nos interesa son las diferencias entre ellos.
Figura 3.1 Gráfica de funciones discriminantes F1-F2 para Pils 5,6 y
Pils Strong
Esto significa que las funciones discriminantes vienen representadas por combinaciones lineales. La función discriminante F1 se define como la siguiente combinación lineal, en función de las variables originales analizadas:
Gráfica de Funciones Discriminantes
-20 -10 0 10 20 30 40
Función 1
-12
-8
-4
0
4
8
12
Fun
ció
n 2
TipoPils 5,6 APils 5,6 BPils 5,6 CPils Strong APils Strong B
124
Cervezas tipo Pils Lager 5,6 y Strong Lager
Y la función discriminante F2 como la combinación lineal:
Si observamos la tabla de clasificación (Tabla 3.5) se encuentra
un 100% de casos correctamente clasificados, es decir, coinciden los tipos de cerveza establecidos por el análisis discriminante lineal con los tipos reales estudiados.
En la Tabla 3.6 se representan los valores para cada función discriminante de los centroides de grupo. De estos valores salen las coordenadas a representar en la Figura 1, coordenadas (F1, F2) para cada centroide.
125
Cervezas tipo Pils Lager 5,6 y Strong Lager
A 1 2 3 4 EA -0,108179 0,293528 -0,225638 0,495107
Alcohol 1,06331 -0,717209 1,00121 1,54338 ESP 0,918038 -0,209486 -0,595238 -0,813478 GAF -0,507663 0,730677 -1,25546 -1,63328
Color 0,477666 1,04723 0,370361 -0,327859 Amargo 0,342286 0,914293 -0,63569 -0,511566
CO2 -0,428568 -0,572417 0,196865 0,925325 pH -0,291385 0,0781459 -0,302228 -0,024555
VDK 0,162445 0,0264586 0,213533 0,49675 SF 0,635895 0,921723 -0,473626 -1,55199
Turbidez -0,748608 -0,862437 0,899708 1,55447 Espuma 0,146521 -0,514402 -0,0889823 0,251485
Isoh -0,210121 -0,156525 0,451938 1,14139 THIA -0,0900054 0,272594 -0,622849 -0,451652 SO2 0,272087 0,083432 -0,530467 -0,244436
Tabla 3.4 Coeficientes estandarizados de las funciones discriminantes
Actual Tipo
Tamaño de
Grupo
Predicho Pils 5,6 A
Tipo Pils 5,6 B
Pils 5,6 C Pils
Strong A Pils
Strong B
Pils 5,6 A
12 12
(100,00%) 0 (0,00%) 0 (0,00%) 0 (0,00%) 0 (0,00%)
Pils 5,6 B
12 0 (0,00%) 12
(100,00%) 0 (0,00%) 0 (0,00%) 0 (0,00%)
Pils 5,6 C
12 0 (0,00%) 0 (0,00%) 12
(100,00%) 0 (0,00%) 0 (0,00%)
Pils Strong
A 10 0 (0,00%) 0 (0,00%) 0 (0,00%)
10 (100,00%)
0 (0,00%)
Pils Strong
B 10 0 (0,00%) 0 (0,00%) 0 (0,00%) 0 (0,00%)
10 (100,00%)
Tabla 3.5 Tabla de clasificación de los casos
126
Cervezas tipo Pils Lager 5,6 y Strong Lager
Grupo 1 2 3 4 Pils 5,6 A -18,4348 0,486657 -2,80905 0,912612 Pils 5,6 B -16,1853 3,19031 -0,347994 -1,44201 Pils 5,6 C -18,2439 -2,61414 3,2276 0,503952 Pils Strong A 28,6302 -9,69679 -0,762253 -0,348344 Pils Strong B 34,8066 8,42139 0,677581 0,378875
Tabla 3.6 Centroides de grupo por “Tipo”
Se podrían realizar gráficos de dispersión de una variable frente a otra pero, en el mejor de los casos, se encontrarían diferencias en principio apreciables entre los cinco tipos de cerveza (Figura 3.2) pero que en realidad hacen muy difícil la asignación al grupo correcto por la alta dispersión que muestran los puntos alrededor del centroide.
Figura 3.2 Diagrama de dispersión Color-Amargo
Diagrama de Dispersión
22 25 28 31 34 37
Amargo
7
10
13
16
19
22
Co
lor
TipoPils 5,6 APils 5,6 BPils 5,6 CPils Strong APils Strong B
127
Optimización de funciones discriminantes
Optimización de las funciones discriminantes
Hemos visto la importancia que tiene encontrar un modelo matemático con funciones discriminantes que son combinaciones lineales de las variables originales para lograr encontrar una forma de discriminar diferentes tipos de cerveza. Pero las combinaciones lineales encontradas contienen todas las variables originales, en este caso 15. Es decir, para lograr agrupar una cerveza desconocida en uno de los tipos estudiados, haría falta realizar todos los análisis.
Sería muy interesante poder disminuir el número de variables originales para, por un lado no perder información relevante para su discriminación y, por otro lado, poder discriminar con menos variables para no tener que realizar todos los análisis.
Para esta optimización, nos vamos a fijar en el valor de los coeficientes estandarizados de la primera función discriminante, que explica casi el 93,3% de la varianza y aquellos valores comprendidos entre -0,3 y +0,3 se retiran del modelo matemático (en el ejemplo nos quedamos sólo con 7 de las 15 variables originales: Alcohol, ESP, GAF, Color, Amargo, CO2 y SF) y observamos qué ocurre con el gráfico de funciones discriminantes (Figura 3.3) tras haber eliminado 8 variables.
Vemos que se ha perdido un poco de discriminación entre las cervezas Pils 5,6 A y Pils 5,6 B aunque la tabla de clasificación nos sigue mostrando que hay un 100% de los casos correctamente clasificados. Y hemos obtenido este modelo sólo con 7 variables originales.
Si ahora extraemos las variables Amargo, CO2 y SF que disponen de coeficientes estandarizados entre -0,3 y +0,3 obtenemos la Figura 3.4 donde se observa que sigue habiendo poder discriminante y ahora sólo estamos trabajando con combinaciones lineales de 4 variables originales. A cambio de perder un poco de información relevante, se puede construir un modelo matemático
128
Optimización de funciones discriminantes
de funciones discriminantes que logran asociar una cerveza desconocida en uno de estos cinco tipos con sólo realizar 4 análisis básicos (en realidad sólo dos porque los tres primeros parámetros se consiguen simultáneamente con un densímetro digital apropiado). Aquí se encuentra la verdadera potencia de este tipo de análisis quimiométrico de reconocimiento de pautas, en el poder de minimización de las variables originales, con el consiguiente ahorro de costes de análisis de laboratorio.
Figura 3.3 Gráfico de funciones discriminantes optimizadas a 7
variables originales
Gráfica de Funciones Discriminantes
-18 -8 2 12 22 32 42
Función 1
-11
-7
-3
1
5
9
13
Fu
nció
n 2
TipoPils 5,6 APils 5,6 BPils 5,6 CPils Strong APils Strong B
129
Optimización de funciones discriminantes
Figura 3.4 Gráfico de funciones discriminantes optimizadas a 4
variables originales
2.2 Cervezas con recorrido de alcohol entre 3,0% y 5,0%
Ahora veamos qué ocurre con otro grupo de cinco cervezas diferentes con contenidos de alcohol intermedios, en la zona de las cervezas llamadas antiguamente “normales”. Para ello, disponemos de la Tabla 3.7 con análisis de los mismos parámetros analíticos anteriores y donde cada fila de cada tipo de cerveza es a su vez el promedio de los resultados de todo un mes de fabricación para dar más robustez a los resultados.
Gráfica de Funciones Discriminantes
-17 -7 3 13 23 33
Función 1
-9
-6
-3
0
3
6
9
Fu
nció
n 2
TipoPils 5,6 APils 5,6 BPils 5,6 CPils Strong APils Strong B
130
Cervezas con recorrido de alcohol entre 3,0% y 5,0%
Entre estas cervezas se encuentran dos del tipo “shandy”, cervezas mezcladas con refresco de limón, dos de un alcohol de 4,5% y una más con alcohol de 5,0%
La cerveza Shandy B no dispone de análisis de SF ya que se trata de una cerveza turbia y los valores de este parámetro son altísimos y no aportan ninguna información relevante al estado de la cerveza. Así, se elimina desde el inicio el parámetro SF en el estudio.
Tras realizar el procedimiento quimiométrico de ADL, se obtiene la tabla de coeficientes (Tabla 3.8) donde se observa que hay 4 coeficientes por encima de 0,5 en valor absoluto lo que nos hace predecir que la discriminación es muy buena y hay separaciones importantes de los grupos.
Efectivamente, en la Figura 3.5 se observan con claridad los cinco grupos estudiados perfectamente diferenciados en el plano formado por F1 y F2.
Esta separación nos hace pensar que va a ser fácil llevar a cabo una optimización de las funciones discriminantes disminuyendo el número de variables originales en la combinación lineal.
131
Tipo EA Alc ESP GAF Color Amar. CO2 pH VDK S.F. Turb Espuma Isoh TTHH SO2
Shandy A 2,39 4,50 10,88 78,00 7,5 20,0 5,38 4,15 26 1,30 0,32 115 10,5 0,0 8,0
Shandy A 2,54 4,42 10,85 76,59 7,4 18,0 5,41 4,16 34 1,39 0,46 107 10,2 0,0 7,6
Shandy A 2,69 4,40 10,94 75,38 7,3 18,0 5,36 4,15 30 1,27 0,31 102 10,6 0,0 6,8
Shandy A 2,75 4,30 10,82 74,55 8,2 18,0 5,45 4,17 30 1,53 0,55 100 10,1 0,0 7,6
Shandy A 2,47 4,40 10,73 77,00 7,6 17,5 5,45 4,15 26 1,47 0,50 103 9,5 0,0 8,0
Shandy A 2,47 4,48 10,88 77,39 7,3 17,8 5,45 4,15 36 1,56 0,53 108 9,9 0,0 5,7
Shandy A 2,74 4,35 10,88 74,73 6,7 18,3 5,37 4,18 26 1,37 0,48 111 11,3 0,0 5,5
Shandy A 2,80 4,29 10,85 74,27 7,2 18,0 5,39 4,18 36 1,28 0,48 105 9,5 0,0 6,4
Shandy A 2,48 4,43 10,83 77,19 7,7 17,7 5,42 4,16 36 1,39 0,47 108 9,4 0,0 7,7
Shandy A 2,42 4,48 10,80 77,50 7,5 18,0 5,38 4,14 46 1,44 0,49 111 11,0 0,0 10,0
Shandy A 2,34 4,50 10,85 78,50 7,1 17,0 5,40 4,16 50 1,27 0,46 100 9,8 0,0 8,5
Shandy A 2,38 4,48 10,87 78,00 7,0 17,5 5,42 4,14 38 1,40 0,46 117 10,6 6,6 9,5
Shandy B 6,28 3,10 12,10 48,00 5,0 10,5 5,60 3,24 18 25,9 110 7,9 2,1 3,0
Shandy B 6,20 3,20 12,20 49,00 6,1 10,0 5,60 3,29 16 25,9 106 8,5 2,3 3,0
Shandy B 6,60 3,00 12,30 46,00 5,0 12,0 5,60 3,22 21 27,7 108 9,2 2,4 2,0
Shandy B 6,50 3,10 12,30 48,00 5,3 11,0 5,60 3,22 14 27,0 105 9,5 2,1 2,0
Shandy B 6,30 3,20 12,30 49,00 6,5 12,0 4,60 3,21 38 26,0 101 10,1 2,4 3,0
Shandy B 6,30 3,10 12,20 48,00 7,7 13,0 5,70 3,22 30 29,7 103 10,8 2,6 2,0
Shandy B 6,30 3,10 12,10 48,00 7,2 12,0 5,70 3,24 34 30,5 109 10,2 2,5 2,0
Shandy B 6,30 3,20 12,20 49,00 6,2 11,8 5,60 3,26 28 27,6 112 11,7 2,4 3,0
Shandy B 6,30 3,20 12,40 49,00 5,3 12,2 5,60 3,26 42 25,0 109 10,6 2,5 3,0
132
Shandy B 6,40 3,20 12,30 48,00 5,2 13,0 4,60 3,31 16 29,0 107 11,2 2,5 3,0
Pils 4,5 A 2,14 4,94 11,39 81,11 8,2 24,4 5,34 4,34 48 2,65 0,62 123 20,9 4,5 5,2
Pils 4,5 A 2,22 4,87 11,41 80,44 8,0 23,9 5,39 4,38 87 2,84 0,64 126 20,6 4,4 5,0
Pils 4,5 A 2,15 4,90 11,40 81,21 8,2 23,8 5,35 4,24 57 2,79 0,62 125 21,0 4,0 5,0
Pils 4,5 A 2,15 4,88 11,39 80,88 8,0 23,5 5,33 4,20 27 2,85 0,64 123 20,2 3,5 6,3
Pils 4,5 A 2,11 4,94 11,43 81,50 7,9 24,1 5,34 4,14 37 2,82 0,63 123 20,7 3,8 4,0
Pils 4,5 A 2,26 4,87 11,45 80,20 8,0 24,4 5,30 4,06 46 2,50 0,52 125 20,5 3,9 6,4
Pils 4,5 A 2,33 4,83 11,41 79,68 8,1 24,6 5,33 4,08 46 2,34 0,47 125 20,9 3,9 3,3
Pils 4,5 A 2,34 4,83 11,43 79,50 8,1 24,0 5,28 4,10 47 2,60 0,52 119 20,5 4,1 4,6
Pils 4,5 A 2,41 4,79 11,46 79,07 8,0 24,9 5,28 4,05 51 3,08 0,56 127 22,0 4,3 3,5
Pils 4,5 A 2,36 4,78 11,40 79,44 7,8 24,5 5,24 4,09 46 1,84 0,39 126 20,2 4,1 5,0
Pils 4,5 A 2,36 4,76 11,32 79,22 7,9 24,8 5,28 4,08 38 1,94 0,43 135 20,3 3,6 3,0
Pils 4,5 A 2,09 4,95 11,43 81,73 8,2 23,5 5,31 4,31 53 2,09 0,47 122 19,3 4,1 3,5
Pils 4,5 B 2,05 4,62 10,75 80,90 7,1 21,0 5,37 4,24 31 3,47 0,73 126 19,1 3,4 2,4
Pils 4,5 B 2,06 4,58 10,70 80,67 7,1 19,3 5,40 4,35 77 4,40 1,08 115 17,6 3,1 4,3
Pils 4,5 B 2,07 4,58 10,75 80,85 6,9 20,0 5,33 4,16 43 3,36 0,79 117 18,3 3,1 1,5
Pils 4,5 B 1,94 4,66 10,73 81,83 6,9 20,9 5,38 4,15 23 3,04 0,70 122 18,9 2,9 1,3
Pils 4,5 B 1,96 4,60 10,71 81,88 6,9 21,1 5,39 4,03 32 3,11 0,67 121 20,1 3,2 1,7
Pils 4,5 B 2,10 4,55 10,73 80,21 6,8 20,7 5,37 4,05 46 2,76 0,57 122 17,5 3,1 3,0
Pils 4,5 B 2,17 4,52 10,72 79,85 6,8 20,8 5,43 4,02 42 2,94 0,65 126 18,8 3,1 2,8
Pils 4,5 B 2,14 4,52 10,70 80,00 6,8 20,1 5,36 4,05 47 2,88 0,59 145 17,8 3,3 2,0
Pils 4,5 B 2,11 4,54 10,77 80,30 7,0 20,9 5,33 4,06 33 3,42 0,75 119 18,4 3,2 1,7
133
Pils 4,5 B 2,10 4,55 10,74 80,43 6,7 20,6 5,31 4,12 41 2,57 0,63 141 18,2 2,7 3,0
Pils 4,5 B 2,11 4,51 10,67 80,11 6,7 20,8 5,37 4,08 33 2,67 0,61 119 17,4 3,4 2,5
Pils 4,5 B 2,00 4,60 10,74 81,43 7,0 21,1 5,31 4,24 44 2,93 0,62 137 18,3 2,9 2,4
Pils 5 2,33 5,20 12,05 80,50 7,4 26,0 5,37 4,30 42 3,13 0,69 122 23,3 4,8 5,2
Pils 5 2,39 5,15 12,02 79,82 7,2 25,5 5,37 4,34 74 3,22 0,69 124 21,2 4,7 7,0
Pils 5 2,25 5,20 12,07 81,67 6,8 25,7 5,37 4,33 64 2,51 0,60 123 22,8 4,0 6,5
Pils 5 2,15 5,23 11,97 82,14 7,1 23,5 5,36 4,17 16 2,69 0,62 123 21,4 3,9 5,1
Pils 5 2,17 5,26 12,04 81,78 7,1 25,4 5,30 4,15 37 2,88 0,61 122 22,8 3,9 4,0
Pils 5 2,65 5,00 12,05 78,00 7,1 25,3 5,31 4,17 53 2,42 0,53 122 21,7 4,2 8,0
Pils 5 2,49 5,10 12,08 79,25 7,3 25,0 5,30 4,07 47 2,51 0,46 132 21,9 4,5 4,0
Pils 5 2,65 5,00 12,05 78,00 7,4 24,3 5,25 4,10 73 2,54 0,41 125 20,7 4,2 4,0
Pils 5 2,54 5,03 12,07 79,00 7,0 24,7 5,30 4,10 58 2,47 0,47 124 21,7 4,2 5,5
Pils 5 2,59 5,06 12,08 78,60 7,2 24,8 5,26 4,08 53 1,80 0,39 133 20,7 4,1 6,0
Pils 5 2,53 5,08 12,05 79,00 6,9 25,0 5,33 4,13 57 1,84 0,38 137 20,9 3,6 4,7
Pils 5 2,29 5,24 12,12 81,20 7,1 25,4 5,30 4,28 64 1,95 0,44 123 21,5 3,9 5,5
Tabla 3.7 Datos analíticos de cervezas Shandy, Pils 4,5 y Pils 5
134
Cervezas con recorrido de alcohol entre 3,0% y 5,0%
A 1 2 3 4
EA 0,35856 -0,53578 -1,56544 2,06214 Alcohol 0,50871 1,76832 -1,30106 -0,641107
ESP 0,802089 0,568191 0,290847 -0,113843 GAF -0,322841 -1,86293 -0,338657 2,14891
Color -0,0777336 0,301692 -0,328381 0,908196 Amargo -0,645397 0,254603 -0,453977 0,444413
CO2 0,13766 0,391991 -0,168358 -0,0474971 pH -0,200173 -0,244245 0,0446453 0,291106
VDK -0,192083 0,0047507 0,270931 -0,329704 Turbidez 1,05389 -0,257943 0,213744 -0,113508 Espuma 0,103748 0,106999 0,234023 0,0322258
Isoh -0,195694 -0,0597363 1,12834 -0,0913613 THIA -0,122406 0,0220097 0,0246436 0,325118 SO2 0,263512 0,153409 -0,435818 0,114046
Tabla 3.8 Tabla de coeficientes estandarizados de las funciones discriminantes
Figura 3.5 Gráfico de funciones discriminantes
Gráfica de Funciones Discriminantes
-24 -4 16 36 56 76
Función 1
-13
-3
7
17
27
Fun
ció
n 2
TipoPils 4,5 APils 4,5 BPils 5Shandy AShandy B
135
Optimización de funciones discriminantes
Optimización de funciones discriminantes
Se lleva a cabo una primera optimización eliminando aquellas variables originales cuyos coeficientes sean menores de 0,5 (en valor absoluto). Así, se eliminan: EA, GAF, Color, CO2, pH, VDK, Espuma, Isoh, THIA y SO2.
Obtenemos la Tabla 3.9 de coeficientes estandarizados y el gráfico de funciones discriminantes (Figura 3.6) de donde se deduce que todavía es fácil seguir optimizando las funciones discriminantes disminuyendo el número de variables originales y, por tanto, las necesidades analíticas para determinar si una cerveza desconocida pertenece a uno de estos cinco grupos estudiados.
A 1 2 3 4
Alcohol -0,300301 0,437389 0,0380579 0,857747 ESP 0,877285 0,701649 -0,286084 -0,155373
Amargo -0,736902 0,298898 0,717173 -0,441282 Turbidez 0,973549 -0,0720582 0,480929 0,434935
Tabla 3.9 Tabla de coeficientes estandarizados de las funciones discriminantes
Podemos eliminar el parámetro Alcohol, también con un
coeficiente menor que 0,5 en valor absoluto y quedarnos sólo con tres parámetros analíticos originales: ESP, Amargo y Turbidez.
En la Figura 3.7 se sigue observando una muy buena separación entre los cinco grupos y esta vez con combinaciones lineales de 3 variables originales, es decir que con tres análisis rápidos: ESP, Amargo y Turbidez, podemos establecer a cuál de estos cinco grupos pertenece nuestra cerveza desconocida. Mientras la función F1 puede distinguir muy bien entre Pils 4,5 A, Pils 4,5 B, Pils 5 y Shandy B (la Shandy A se solapa con Pils 4,5 A), la función
136
Optimización de funciones discriminantes
F2 no puede distinguir bien la Pils 4,5 B y la Shandy A pero sí puede distinguir cuatro de los cinco grupos.
Figura 3.6 Gráfico de funciones discriminantes optimizadas a cuatro variables originales
Teniendo en cuenta los coeficientes de la función de clasificación para Tipos (Tabla 3.10) obtenida tras la última optimización.
Tipo Pils 4,5 A Pils 4,5 B Pils 5 Shandy A Shandy B
ESP 5077,58 4809,38 5371,57 4905,28 6070,68 Amargo -110,285 -109,947 -117,918 -119,026 -188,716 Turbidez 144,86 139,03 153,502 143,24 235,32 Cte. -27674,0 -24709,6 -30939,8 -25571,3 -39272,9
Tabla 3.10 Tabla de coeficientes de la función de clasificación para Tipo
Gráfica de Funciones Discriminantes
-20 0 20 40 60
Función 1
-11
-6
-1
4
9
14
19
Fu
nci
ón
2
TipoPils 4,5 APils 4,5 BPils 5Shandy AShandy B
137
Optimización de funciones discriminantes
Figura 3.7 Gráfico de funciones discriminantes optimizadas a 3 variables originales
De esa tabla (Tabla 3.10) se obtienen los valores clasificatorios por Tipo, de tal manera que el valor clasificatorio más alto es el que corresponde al Tipo verdadero:
Y así sucesivamente. Aquél “Tipo” que obtenga el valor más alto
es el que define el Tipo al que pertenece nuestra cerveza desconocida.
Gráfica de Funcione s Discriminante s
-20 0 20 40 60
Función 1
-10
-5
0
5
10
15
Fu
nc
ió
n 2
TipoPils 4 ,5 APils 4 ,5 BPils 5Shandy AShandy B
138
Optimización de funciones discriminantes
Con estas ecuaciones podemos llevar a cabo el estudio de un ejemplo de cerveza desconocida y predecir a qué grupo pertenece. Si disponemos de los análisis de una cerveza desconocida (realmente corresponde a un análisis de cerveza Tipo Pils 4,5 A) que puede estar en uno de estos cinco grupos, con el cálculo de las funciones Tipo es fácil asignarla. Tomemos el siguiente ejemplo real, de una muestra de cerveza que pertenece a uno de estos cinco grupos pero no sabemos a cuál y cuyos análisis de esos tres parámetros analíticos son los siguientes:
ESP: 11,39 Amargo: 22,86 Turbidez: 0,57
Calculemos los valores de la función de clasificación para Tipo:
La puntuación más alta corresponde al Tipo Pils 4,5 A, como así correspondía el Tipo elegido previo a su análisis por este procedimiento quimiométrico.
139
Cervezas de todo recorrido de alcohol
2.3 Cervezas de todo recorrido de alcohol
Como último caso, y ya que se ve un poder discriminante importante entre diferentes tipos de cerveza, con mucho contenido de alcohol y contenidos intermedios, voy a estudiar la discriminación de un grupo de cervezas con recorridos de alcohol variados, añadiendo también dos nuevos tipos de cerveza, una con alcohol 0,0% (no alcohólicas o alcohol free) y otra con alcohol de hasta 1,0% (dentro del grupo de las llamadas cervezas sin). Así, a los datos de la Tabla 3.1 le añadimos los de la Tabla 3.7 y ahora los de los dos nuevos tipos de cerveza (Tabla 3.11) podemos realizar el mismo procedimiento clasificatorio de ADL.
La importancia de este estudio se deduce del interés por discriminar entre diferentes tipos de cervezas con el menor número de parámetros analíticos. Así, un simple análisis de pocos parámetros es capaz de ayudarnos a agrupar una cerveza desconocida en un Tipo determinado del grupo estudiado, pero teniendo en cuenta todo el recorrido de alcohol que hemos usado, desde 0,0% hasta 7,0%.
140
Tipo EA Alc ESP GAF Color Amar. CO2 pH VDK S.F. Turb. Espuma Isoh THIA SO2
Cerveza 0,0 6,01 0,00 6,06 1,00 8,6 24,2 5,35 4,25 16 1,01 0,25 124 20,2 4,4 4,5
Cerveza 0,0 6,08 0,00 6,13 1,00 8,5 25,3 5,42 4,25 32 0,96 0,21 123 21,8 4,9 1,5
Cerveza 0,0 6,08 0,00 6,15 1,00 8,4 25,3 5,39 4,25 33 1,04 0,21 123 21,3 4,4 4,0
Cerveza 0,0 6,06 0,00 6,11 1,00 8,3 25,1 5,31 4,27 18 0,98 0,18 123 21,2 4,8 4,0
Cerveza 0,0 6,08 0,00 6,14 1,00 8,3 26,4 5,39 4,22 23 1,03 0,20 123 22,0 4,1 3,0
Cerveza 0,0 6,03 0,01 6,10 1,05 8,5 26,6 5,33 4,27 12 1,21 0,24 129 21,2 4,2 2,4
Cerveza 0,0 6,01 0,00 6,09 1,00 8,1 25,9 5,38 4,28 14 1,10 0,22 124 21,0 4,2 3,0
Cerveza 0,0 6,11 0,01 6,18 1,00 8,3 25,5 5,29 4,26 12 1,22 0,24 134 20,9 4,5 0,0
Cerveza 0,0 6,01 0,01 6,08 1,08 8,4 25,2 5,28 4,33 25 0,90 0,19 132 20,6 4,1 2,3
Cerveza 0,0 6,06 0,01 6,12 1,11 8,2 25,9 5,30 4,23 21 0,88 0,16 142 23,4 4,5 2,0
Cerveza 0,0 6,01 0,01 6,08 1,00 8,7 26,0 5,42 4,33 27 0,86 0,20 141 21,1 4,9 2,5
Cerveza 0,0 6,03 0,01 6,09 1,00 9,3 25,3 5,36 4,42 37 0,80 0,23 151 21,3 4,3 2,5
Cerveza Sin 8,28 0,83 9,80 16,00 5,6 7,0 5,58 2,90 13 0,80 0,24 78 2,8 2,7 4,5
Cerveza Sin 8,10 0,83 9,70 16,33 5,7 7,5 5,67 2,85 12 0,79 0,23 72 2,4 2,0 1,0
Cerveza Sin 7,89 0,89 9,56 17,50 5,5 9,0 5,62 2,89 12 0,82 0,36 78 3,0 3,2 1,0
Cerveza Sin 8,24 0,79 9,73 15,33 5,0 8,0 5,60 2,87 12 0,63 0,24 75 2,8 2,9 1,0
Cerveza Sin 8,05 0,85 9,67 16,65 5,6 7,4 5,70 2,88 10 1,01 0,37 76 2,6 2,5 1,0
Cerveza Sin 8,01 0,89 9,69 17,29 5,7 8,0 5,70 2,88 14 0,96 0,35 73 2,1 1,9 1,0
Cerveza Sin 8,07 0,86 9,68 16,85 5,6 8,2 5,68 2,90 13 1,12 0,32 111 3,0 2,5 1,0
Cerveza Sin 8,03 0,85 9,62 16,61 5,4 7,4 5,67 2,94 14 0,88 0,39 122 2,4 2,3 0,8
141
Cerveza Sin 8,22 0,82 9,77 15,67 5,9 8,0 5,67 2,89 17 1,58 0,44 118 2,8 2,3 1,5
Cerveza Sin 8,02 0,88 9,68 17,40 5,7 9,0 5,54 2,96 23 1,04 0,38 106 2,7 3,1 1,0
Cerveza Sin 7,94 0,89 9,63 17,25 5,5 7,7 5,70 2,95 18 1,32 0,34 95 4,1 3,2 2,0
Cerveza Sin 6,04 0,83 7,61 20,57 5,8 5,5 5,63 2,99 30 1,22 0,38 133 2,3 1,3 2,0
Tabla 3.11 Datos analíticos de cervezas tipo 0,0 y Sin
142
Cervezas de todo recorrido de alcohol
Vamos a intentar discriminar entre estos doce Tipos de cerveza distintos y posteriormente optimizar las funciones discriminantes para intentar encontrar las combinaciones lineales con menos variables originales pero que, al mismo tiempo, no se pierda información relevante.
Figura 3.8 Gráfico de funciones discriminantes para los 12 Tipos de cerveza estudiados
En la Figura 3.8 se observan muy buenas separaciones entre tipos de cerveza excepto en dos casos: dos cervezas (tipo shandy A y Pils 4,5 B) y las cervezas tipo Pils 5,6 (A, B y C). Muy cercanos entre sí los objetos de estos dos grupos aunque se separan bastante bien del resto.
Gráfica de Funciones Discriminantes
-100 -70 -40 -10 20 50
Función 1
-45
-25
-5
15
35
55
Fu
nci
ón
2
TipoCerveza 0,0Cerveza SinPils 4,5 APils 4,5 BPils 5Pils 5,6 APils 5,6 BPils 5,6 CPils Strong APils Strong BShandy AShandy B
143
Cervezas de todo recorrido de alcohol
No obstante, esto no significa en principio nada grave ya que en esas dos zonas de solapamiento, si se realiza un zoom se encuentran bien separadas. En la Tabla 3.12 se muestran los coeficientes correspondientes a la función clasificatoria de cada Tipo de cerveza analizada en el estudio.
Para evitar realizar operaciones matemáticas tediosas en el cálculo de la función clasificatoria para Tipo, utilizamos una opción del programa Statgraphics Centurion XVII, que nos permite añadir datos analíticos de cervezas desconocidas para que el propio programa las separe y catalogue en el grupo correcto aplicando estas funciones clasificatorias por Tipo.
En la Tabla 3.13 se observan 12 filas, correspondientes a 12 cervezas diferentes, ya conocidas desde el principio, para comprobar la bondad del análisis que realiza Statgraphics Centurion XVII.
144
Cerveza
0,0
Cerveza
Sin
Pils
4,5 A
Pils 4,5
B Pils 5
Pils 5,6
A
Pils 5,6
B
Pils 5,6
C
Pils
Strong A
Pils
Strong B
Shandy
A
Shandy
B
EA 211,1 340,7 294,3 334,6 243,7 193,6 177,0 170,06 52,1 88,8 324,4 190,7
Alcohol -2525,6 -3246,3 -3374 -3883,5 -2916,2 -2176,2 -2153,5 -2116,5 -555,0 -581,1 -3706,4 -3327
ESP 375,4 638,5 938,3 952,4 949,7 936,9 949,3 960,8 933,5 883,1 934,4 1073,1
GAF 157,7 257,7 338,5 371,5 308,0 262,6 260,1 258,5 158,6 160,4 357,0 302,7
Color 49,4 8,8 26,3 15,1 21,2 25,1 35,4 25,3 60,8 102,6 18,8 -51,1
Amargo 34,8 3,0 21,3 16,3 18,8 19,1 18,2 12,0 13,3 24,0 22,1 -21,7
CO2 283,7 262,3 253,9 238,0 270,1 297,1 291,0 292,4 357,5 352,7 241,3 236,1
pH 1267,6 818,1 727,9 772,9 674,4 586,7 576,1 555,4 394,9 411,0 774,1 535,7
VDK -2,8 -1,2 -0,4 -0,4 -0,24 -0,03 -0,08 0,01 0,1 0,2 -0,6 -0,1
SF -10,3 -21,8 -38,7 -37,8 -38,5 -39,1 -39,1 -38,4 -44,0 -46,5 -38,8 -42,2
Turbidez -28,1 25,2 44,7 49,1 46,8 46,2 44,1 49,2 44,0 28,4 50,4 195,8
Espuma 3,7 5,1 7,0 6,8 7,4 7,9 7,9 8,0 8,8 8,5 6,6 7,8
Isoh 23,6 6,9 8,8 9,5 10,1 11,5 11,1 11,3 8,9 15,1 -4,5 7,0
THIA -4,6 -23,8 -43,8 -44,1 -46,3 -49,8 -49,7 -51,7 -57,2 -54,2 -48,7 -53,5
SO2 6,2 6,3 4,3 2,9 4,9 5,3 4,7 3,0 6,6 7,7 6,9 8,2
Cte. -6440,9 -7366,9 -14041 -14426 -13738,7 -13697 -13701,4 -13602 -14486,7 -14952,9 -13815,8 -13084
Tabla 3.12 Coeficientes de la función de clasificación para Tipo
145
EA Alc ESP GAF Color Amar. CO2 pH VDK SF Turb. Espuma Isoh THIA SO2
Pils 5,6 A 2,74 5,51 13,01 79,04 7,05 28,06 5,54 4,30 30 1,51 0,44 119 23,83 4,05 6,95
Cerveza 00 6,24 0,02 6,17 1,21 8,12 24,33 5,42 4,08 17 0,89 0,26 114 21,10 3,13 4,50
Pils 4,5 A 2,29 4,82 11,36 79,83 7,64 22,50 5,46 4,22 51 1,72 0,58 122 19,16 3,75 5,77
Pils 5,6 B 2,64 5,57 13,06 79,69 8,80 26,85 5,52 4,32 59 2,68 0,76 120 22,45 4,07 6,41
Pils 5 2,40 5,18 12,05 80,00 7,02 25,67 5,33 4,24 54 1,38 0,40 112 19,23 4,30 7,00
Pils 5,6 C 2,49 5,60 13,00 81,00 8,10 25,00 5,40 4,20 33 3,64 0,83 123 22,10 3,70 1,00
Pils 4,5 B 2,06 4,58 10,70 80,67 7,10 19,27 5,40 4,35 75 4,40 1,08 115 17,65 3,13 4,33
Pils Strong A 3,24 6,40 14,90 78,00 12,20 27,00 5,20 4,16 52 1,26 0,54 135 23,70 3,10 7,00
Cerveza Sin 7,94 0,89 9,63 17,25 5,48 7,73 5,70 2,95 18 1,32 0,34 95 4,10 3,20 2,00
Shandy A 2,87 4,30 10,90 74,00 8,60 18,00 5,50 4,17 12 1,72 0,60 102 10,90 0,00 9,00
Pils Strong B 3,60 6,30 15,20 76,00 18,40 31,00 5,70 4,11 65 2,30 0,80 123 28,10 4,40 8,00
Shandy B 6,20 3,20 12,20 49,00 6,10 10,00 5,60 3,29 19 26,10 25,90 108 8,50 2,30 3,00
Tabla 3.13 Datos reales de 12 diferentes tipos de cerveza del estudio
146
Fila Grupo real de pertenencia
Grupo más alto
Valor más alto
Distancia cuadrada
Prob. 2º Grupo más
alto 2º valor más alto
Distancia cuadrada
Prob.
1 Pils 5,6 A Pils 5,6 A 13685,6 19,4823 1,0000 Pils 5,6 B 13669,7 51,2263 0,0000 2 Cerveza 0,0 Cerveza 0,0 6161,91 22,3904 1,0000 Cerveza Sin 4498,87 3348,46 0,0000 3 Pils 4,5 A Pils 4,5 A 14014,2 11,2123 1,0000 Pils 5 13943,2 153,1 0,0000 4 Pils 5,6 B Pils 5,6 B 13739,8 13,9865 0,9785 Pils 5,6 A 13736,0 21,6266 0,0215 5 Pils 5 Pils 5 13564,1 33,9857 1,0000 Pils 4,5 A 13485,3 191,652 0,0000 6 Pils 5,6 C Pils 5,6 C 13757,0 17,7083 0,9983 Pils 5,6 B 13750,6 30,4814 0,0017 7 Pils 4,5 B Pils 4,5 B 14380,3 11,1534 1,0000 Shandy A 14306,6 158,569 0,0000 8 Pils Strong A Pils Strong A 14260,1 10,2194 1,0000 Pils Strong B 14085,1 360,112 0,0000 9 Cerveza Sin Cerveza Sin 7432,44 6,04037 1,0000 Cerveza 0,0 5592,68 3685,57 0,0000
10 Shandy A Shandy A 13544,8 29,2779 1,0000 Pils 4,5 B 13442,3 234,14 0,0000 11 Pils Strong B Pils Strong B 14870,7 11,3247 1,0000 Pils Strong A 14719,9 312,9 0,0000 12 Shandy B Shandy B 12705,8 36,6046 1,0000 Shandy A 10330,4 4787,34 0,0000
Tabla 3.14 Resultados reales de grupo de pertenencia de los 12 diferentes tipos de cerveza del estudio
147
Cervezas de todo recorrido de alcohol
Introducidos estos datos en el programa estadístico, obtenemos la clasificación, como hemos visto anteriormente, con ayuda de la función de clasificación para Tipo. El valor más alto en cada caso es el que condiciona el grupo de cerveza al que pertenece. Los resultados los podemos observar en la Tabla 3.14.
Si comparamos el grupo real de pertenencia frente al grupo más alto obtenido por la función de clasificación para Tipo, vemos que hay coincidencia en el 100% de los casos y en todos ellos con altísimo nivel de probabilidad. El valor de la fila 4 tiene un 97,85% de probabilidad de acierto y el de la fila 6 un 99,83% que son valores bastante altos y válidos de confianza.
2.4 Discriminación entre diferentes fábricas de un mismo tipo de cerveza
La fabricación de un producto cervecero se lleva a cabo entre unos límites paramétricos llamados “especificaciones”. Si tenemos la premisa que en todas las fábricas donde se produce una misma cerveza dentro de esas especificaciones, podríamos pensar que sería muy difícil discriminar a qué fábrica pertenece una determinada cerveza. En realidad, cada fábrica sigue un proceso equivalente pero, por diversas cuestiones, cada parámetro se mantiene, dentro de los márgenes generales, en unos márgenes específicos propios de esa fábrica y eso podría ser clave para pensar en una posible buena discriminación.
148
Fábrica EA Alc ESP GAF Color Amar. CO2 pH VDK SF Turb. Espuma Isoh THIA SO2 1 2,14 4,94 11,39 81,11 8,2 24,4 5,34 4,34 48 2,65 0,62 123 20,9 4,5 5,2 1 2,22 4,87 11,41 80,44 8,0 23,9 5,39 4,38 87 2,84 0,64 126 20,6 4,4 5,0 1 2,15 4,90 11,40 81,21 8,2 23,8 5,35 4,24 57 2,79 0,62 125 21,0 4,0 5,0 1 2,15 4,88 11,39 80,88 8,0 23,5 5,33 4,20 27 2,85 0,64 123 20,2 3,5 6,3 1 2,11 4,94 11,43 81,50 7,9 24,1 5,34 4,14 37 2,82 0,63 123 20,7 3,8 4,0 1 2,26 4,87 11,45 80,20 8,0 24,4 5,30 4,06 46 2,50 0,52 125 20,5 3,9 6,4 1 2,33 4,83 11,41 79,68 8,1 24,6 5,33 4,08 46 2,34 0,47 125 20,9 3,9 3,3 1 2,34 4,83 11,43 79,50 8,1 24,0 5,28 4,10 47 2,60 0,52 119 20,5 4,1 4,4 1 2,41 4,79 11,46 79,07 8,0 24,9 5,28 4,05 51 3,08 0,56 127 22,0 4,3 3,5 1 2,36 4,78 11,40 79,44 7,8 24,5 5,24 4,09 46 1,84 0,39 126 20,2 4,1 5,0 1 2,36 4,76 11,32 79,22 7,9 24,8 5,28 4,08 38 1,94 0,43 135 20,3 3,6 3,0 1 2,09 4,95 11,43 81,73 8,2 23,5 5,31 4,31 53 2,09 0,47 122 19,3 4,1 3,5 2 2,24 4,87 11,43 80,57 7,7 24,9 5,66 4,25 27 2,10 0,84 120 19,7 4,1 7,0 2 2,07 4,92 11,34 81,80 7,6 23,6 5,62 4,18 39 1,62 0,61 125 19,7 3,1 6,5 2 2,15 4,92 11,41 81,36 7,5 23,1 5,70 4,29 37 1,46 0,54 123 18,7 3,6 4,0 2 2,07 4,90 11,30 81,67 7,7 23,0 5,77 4,34 40 1,60 0,66 122 18,6 3,7 7,0 2 2,14 4,94 11,48 81,63 7,7 24,6 5,61 4,21 29 1,44 0,47 123 20,3 3,9 5,5 2 2,32 4,82 11,40 79,40 8,1 24,8 5,64 4,19 35 1,26 0,46 125 20,1 4,0 6,0 2 2,53 4,67 11,36 77,71 7,5 24,4 5,70 4,09 37 1,51 0,40 124 18,5 4,6 0,0 2 2,53 4,69 11,38 78,00 7,5 24,9 5,63 4,22 38 1,63 0,42 128 20,0 4,4 4,5 2 2,40 4,70 11,30 79,00 8,7 23,0 5,60 4,15 35 1,60 0,35 126 17,9 3,7 3,7
149
2 2,30 4,80 11,35 79,50 8,0 24,0 5,60 4,17 42 1,40 0,44 123 19,1 3,6 4,1 2 2,17 4,88 11,38 81,00 7,8 23,7 5,63 4,30 43 1,80 0,65 129 18,3 3,7 4,0 2 2,05 5,05 11,50 82,50 8,4 25,5 5,65 4,23 34 1,95 0,52 125 19,4 4,5 4,5 3 2,35 4,84 11,43 79,42 7,9 23,2 5,42 4,22 39 1,49 0,44 118 18,0 3,6 5,2 3 2,30 4,85 11,41 79,81 7,6 23,3 5,42 4,18 42 1,35 0,36 115 18,4 3,7 4,6 3 2,36 4,83 11,43 79,41 7,7 23,7 5,41 4,20 42 1,45 0,38 112 18,1 3,9 4,7 3 2,33 4,82 11,39 79,51 7,8 22,9 5,41 4,22 41 1,63 0,57 114 18,0 3,8 5,3 3 2,28 4,85 11,39 80,03 7,7 23,0 5,39 4,13 38 1,61 0,53 114 17,8 3,6 4,9 3 2,39 4,80 11,40 79,04 7,6 23,1 5,40 4,19 39 1,54 0,52 114 17,5 3,4 4,5 3 2,52 4,75 11,40 78,13 7,8 23,3 5,42 4,21 46 1,51 0,50 117 18,9 3,3 4,6 3 2,44 4,75 11,37 78,51 8,1 24,2 5,40 4,22 53 1,55 0,54 120 19,3 4,0 4,7 3 2,35 4,76 11,30 79,15 8,2 23,2 5,43 4,27 58 1,76 0,59 115 18,7 4,1 5,9 3 2,19 4,86 11,33 80,64 7,9 23,7 5,43 4,27 65 1,61 0,57 118 19,2 4,0 5,6 3 2,24 4,84 11,34 80,19 7,7 23,2 5,44 4,23 58 1,69 0,58 117 19,5 4,1 5,5 3 2,29 4,82 11,36 79,83 7,6 22,5 5,46 4,22 53 1,72 0,58 122 19,2 3,8 5,8 4 2,15 4,90 11,40 81,00 7,4 23,0 5,50 4,26 50 2,74 0,53 120 18,2 4,3 5,0 4 2,18 4,90 11,40 81,00 7,4 23,0 5,50 4,25 46 2,80 0,52 118 18,1 4,3 5,0 4 2,30 4,80 11,30 80,00 7,5 24,0 5,60 4,34 39 1,84 0,45 120 18,8 3,7 7,0 4 2,39 4,80 11,50 79,00 7,4 25,0 5,50 4,28 59 3,13 0,48 117 20,9 3,6 4,0 4 2,40 4,80 11,40 79,00 7,5 24,0 5,60 4,33 76 1,33 0,46 115 20,1 3,9 4,0 4 2,42 4,80 11,50 79,00 8,2 23,0 5,60 4,21 40 1,83 0,48 116 17,7 3,7 5,0 4 2,32 4,90 11,50 80,00 8,4 24,0 5,50 4,27 34 1,18 0,35 122 19,0 3,5 4,0
150
4 2,45 4,80 11,40 78,00 7,9 22,0 5,60 4,16 63 1,44 0,47 113 16,5 3,7 4,0 4 2,52 4,70 11,30 78,00 8,9 23,0 5,50 4,28 67 1,05 0,37 120 19,6 3,0 3,0 4 2,40 4,70 11,30 79,00 7,8 24,0 5,50 4,39 27 0,87 0,28 119 19,6 3,4 7,0 4 2,23 4,90 11,50 81,00 7,7 23,0 5,50 4,24 44 1,36 0,44 123 17,7 4,0 3,0 4 2,27 4,90 11,50 80,00 8,6 25,0 5,60 4,44 40 1,84 0,63 118 20,6 4,1 4,0
Tabla 3.15 Resultados analíticos de la misma cerveza tipo Pils 4,6 en cuatro fábricas distintas
151
Discriminación entre diferentes fábricas
En este ejercicio, se ha tenido en cuenta un mismo producto fabricado en 4 diferentes fábricas de cerveza. La Tabla 3.15 muestra resultados robustos de ese tipo de cerveza (Pils 4,6) obtenidos de las medias mensuales de producción, es decir doce filas de datos para cada fábrica de cerveza, una por mes producido.
Tras llevar a cabo el análisis, obtenemos una tabla de clasificación con el 100% de los casos correctamente clasificados y con un gráfico de funciones discriminantes (Figura 3.9) que si bien se notan grupos más dispersos que en casos anteriores, permite una buena discriminación.
Figura 3.9 Gráfico de funciones discriminantes para la misma cerveza en cuatro fábricas diferentes
Gráfica de Funciones Discriminantes
-14 -9 -4 1 6 11 16
Función 1
-6
-4
-2
0
2
4
6
Fu
nci
ón
2
Fábrica1234
152
Discriminación entre diferentes fábricas
Observando los valores de los coeficientes estandarizados de las funciones discriminantes, podemos obviar los parámetros: EA, ESP, Color, Amargo, VDK, SF, Espuma, Isoh, THIA y SO2, por lo que podemos optimizar a 5 parámetros originales sin perder información relevante y seguir manteniendo una buena discriminación (Figura 3.10).
Figura 3.10 Gráfico de funciones discriminantes optimizadas para el mismo tipo de cerveza producida en diferentes fábricas
Se sigue observando una buena discriminación entre fábricas, fundamentalmente en la función discriminante horizontal, F1.
Gráfica de Funciones Discriminantes
-14 -10 -6 -2 2 6 10 14 18
Función 1
-6
-4
-2
0
2
4
6
Fu
nci
ón
2
Fábrica1234
153
Cervezas de mercado
2.5 Cervezas de mercado
Para este estudio, se han llevado a cabo análisis sobre 16 marcas diferentes de cerveza que se pueden encontrar en cualquier supermercado de cierto tamaño y, a cada una de ellas, se la ha estudiado entre 4 y 12 veces en distintos momentos del año. Esto aplica una robustez adecuada al procedimiento para pensar que los centroides son estables en el tiempo.
Los parámetros analizados en cada cerveza son los que se muestran en la Tabla 3.16. En este caso se han elegido 13 variables originales, todas ellas vistas anteriormente excepto la densidad (medida en g/cm3) y que está directamente relacionada con EA.
Todo este conjunto de datos nos da un gráfico de funciones discriminantes (Figura 3.11) donde se pueden observar muy buenas discriminaciones en 5 de las 16 marcas estudiadas.
También se observan dos grandes grupos de mezclas de marcas, el primero de ellos, situado más alto en la vertical, formado por Askania, Steinburg (marcas propias de Mercadona), Amstel, Heineken, Cruzcampo y Grafenwalder (marca propia de Lidl). Son cervezas de perfiles químicos muy parecidos.
El segundo grupo es mezcla de Carrefour Especial, Dorada, Estrella de Galicia y Estrella Damm, también con perfiles químicos similares.
154
Cerveza Densidad ESP Alc GAF pH Color Isoh THIA Turbidez VDK SO2 Espuma CO2
Estrella Galicia 1,00802 12,89 5,79 84,00 3,97 9,0 24,8 1,6 0,57 30 2,8 114 5,40
Estrella Galicia 1,00878 12,86 5,68 82,46 4,11 9,4 23,6 0,0 0,83 31 3,4 114 5,25
Estrella Galicia 1,00891 12,77 5,61 82,08 4,18 8,3 24,4 2,1 0,30 34 3,1 109 5,23
Estrella Galicia 1,00955 12,92 5,61 81,02 4,20 9,2 25,3 2,8 0,39 26 3,5 106 5,22
Estrella Galicia 1,00876 12,81 5,65 82,42 3,97 8,3 27,8 1,1 0,35 27 4,3 119 5,56
Estrella Galicia 1,00873 12,86 5,68 82,56 4,20 10,2 25,1 2,4 0,42 15 3,1 116 5,35
Estrella Galicia 1,00932 12,96 5,66 81,51 4,10 10,6 22,1 2,0 0,58 31 1,5 117 5,11
Estrella Galicia 1,00893 12,84 5,65 82,13 4,11 10,1 23,3 1,9 0,44 69 5,6 114 5,07
Estrella Galicia 1,00830 12,94 5,79 83,50 4,23 10,0 24,1 1,8 0,33 23 4,7 108 5,04
Estrella Galicia 1,00936 13,05 5,71 81,58 4,18 10,0 25,8 2,4 0,76 23 5,6 107 5,15
Estrella Galicia 1,00940 12,95 5,65 81,35 4,33 9,6 22,2 2,5 0,39 34 9,2 103 4,92
Estrella Galicia 1,00983 12,92 5,58 80,47 4,23 9,3 22,2 2,5 0,38 33 5,4 99 5,12
Amstel 1,00996 11,47 4,74 77,70 4,30 9,9 17,9 1,7 0,56 34 0,7 109 5,18
Amstel 1,03025 11,22 4,73 79,43 4,42 11,6 17,3 1,2 0,75 43 1,4 112 5,19
Amstel 1,00829 11,26 4,84 81,07 4,42 9,7 20,1 2,8 0,57 26 1,5 115 5,15
Amstel 1,00821 11,17 4,80 81,11 4,41 9,4 20,0 4,1 0,63 15 1,6 111 5,45
Amstel 1,00770 11,45 5,02 82,69 4,65 9,9 17,4 3,1 0,94 70 1,1 106 5,63
Amstel 1,00893 11,37 4,82 79,82 4,37 9,1 16,6 1,8 0,78 50 1,7 113 5,13
Amstel 1,00813 11,27 4,87 81,45 4,28 9,6 16,1 1,9 0,50 40 1,7 121 5,26
Amstel 1,00825 11,33 4,89 81,27 4,44 8,7 15,6 1,4 0,60 56 2,8 105 5,43
Amstel 1,00765 11,17 4,88 82,38 4,28 10,1 16,8 1,7 0,40 31 0,8 116 4,96
155
Amstel 1,00794 11,34 4,93 81,98 4,25 10,1 19,6 1,7 0,61 29 0,7 109 5,17
Amstel 1,00804 11,42 4,97 81,91 4,60 9,2 17,1 3,2 0,59 68 4,7 178 5,33
Cruzcampo Shandy 1,03044 9,15 0,80 16,07 2,08 6,3 2,7 0,0 0,30 4 0,7 89 5,38
Cruzcampo Shandy 1,03025 8,44 0,43 9,64 2,82 5,8 2,4 0,0 0,25 12 1,6 87 5,52
Cruzcampo Shandy 1,02890 8,20 0,98 11,04 2,86 6,3 2,9 0,0 0,34 16 2,1 88 5,26
Cruzcampo Shandy 1,02831 8,45 0,70 15,34 2,88 5,9 3,0 0,0 0,43 0 1,2 79 5,05
Cruzcampo Shandy 1,02690 8,60 0,95 20,55 2,82 6,1 3,6 0,0 0,40 3 0,9 100 5,27
Cruzcampo Shandy 1,02764 8,06 0,58 13,31 2,85 5,6 5,0 0,5 0,54 --- 0,9 95 5,23
Cruzcampo Shandy 1,03030 8,77 0,60 12,87 2,80 6,0 3,5 0,0 0,36 0 1,7 79 5,04
Cruzcampo Shandy 1,02982 8,07 0,29 6,72 2,86 6,2 3,7 0,0 0,33 14 1,3 85 4,87
Cruzcampo Shandy 1,03028 8,53 0,48 10,47 2,83 6,2 3,6 0,0 0,30 4 0,2 191 5,20
Cruzcampo Shandy 1,02853 8,40 0,64 14,16 2,83 6,3 3,1 1,7 0,63 10 0,9 95 4,50
Cruzcampo Shandy 1,02870 8,07 0,44 10,21 2,86 6,4 4,8 0,0 0,41 22 0,8 96 4,96
Cruzcampo Shandy 1,03095 8,81 0,54 11,50 2,94 6,1 4,9 0,0 0,37 17 0,5 110 5,60
Heineken 1,00402 11,30 5,19 86,72 4,40 7,3 17,1 1,0 0,50 27 1,6 116 5,69
Heineken 1,00400 11,30 4,99 83,02 4,55 7,0 18,5 2,2 0,63 41 5,9 133 5,40
Heineken 1,00840 11,19 4,79 80,77 4,64 7,1 21,4 1,5 0,60 16 4,0 100 5,05
Heineken 1,00840 11,20 4,79 80,80 4,67 7,8 19,9 2,1 0,64 22 5,5 121 4,88
Heineken 1,00657 11,32 4,85 80,98 4,38 7,7 23,7 1,0 0,70 27 1,9 125 5,31
Heineken 1,00870 11,38 4,86 88,50 4,29 7,2 23,6 1,8 0,66 62 2,6 135 5,38
Heineken 1,00840 11,27 4,82 80,80 4,48 7,3 18,2 0,1 0,77 46 4,0 126 5,14
Heineken 1,00930 11,31 4,72 78,82 4,54 6,3 17,2 0,0 0,72 45 10,0 124 4,96
156
Heineken 1,00663 11,22 4,79 80,68 4,28 7,0 16,9 0,0 0,66 50 4,5 122 5,05
Heineken 1,00515 11,26 5,00 84,11 4,55 7,2 20,4 3,0 0,80 25 5,2 114 5,81
Heineken 1,00740 10,98 4,57 78,50 4,43 6,3 19,7 0,0 0,88 40 9,5 124 4,85
Heineken 1,00880 11,11 4,68 79,65 4,32 6,7 20,1 0,0 0,70 95 0,7 133 5,07
Buckler 00 1,01760 4,60 0,02 2,13 4,64 8,8 16,2 0,0 0,59 17 0,4 118 5,29
Buckler 00 1,01760 4,62 0,03 2,62 4,56 10,2 16,3 0,0 1,20 23 0,2 123 5,05
Buckler 00 1,01830 4,79 0,01 1,89 4,51 9,1 20,9 0,0 0,83 8 0,5 122 4,96
Buckler 00 1,01910 5,11 0,03 2,16 4,45 9,2 18,8 1,0 0,73 24 1,7 120 5,12
Buckler 00 1,01790 4,96 0,01 4,60 4,55 8,4 23,0 0,0 0,57 24 0,6 118 4,91
Buckler 00 1,01830 4,79 0,01 1,85 4,42 8,6 23,0 0,0 1,38 29 0,5 123 4,91
Buckler 00 1,01830 4,81 0,02 2,28 4,45 8,8 18,9 0,3 1,07 32 0,4 118 5,07
Buckler 00 1,01830 4,81 0,02 2,32 4,59 8,5 16,2 0,0 0,83 30 0,7 125 4,87
Buckler 00 1,01760 4,62 0,03 2,50 4,48 9,5 17,5 0,0 1,70 30 1,2 124 5,17
Buckler 00 1,01830 4,78 0,01 1,77 4,42 8,4 18,5 0,0 3,24 38 0,7 123 4,69
Buckler 00 1,01780 4,81 0,02 2,24 4,10 9,7 17,6 0,0 1,70 26 0,0 122 5,01
Buckler 00 1,01790 4,72 0,03 2,55 4,47 8,4 16,2 0,0 0,60 32 0,6 115 4,83
Estrella Damm 1,00997 13,01 5,62 80,40 4,21 5,5 25,3 0,3 0,40 34 2,0 115 5,45
Estrella Damm 1,01021 13,07 5,62 79,96 4,32 7,9 25,3 0,0 0,37 29 2,0 118 5,50
Estrella Damm 1,01020 13,14 5,66 80,09 4,21 8,6 24,5 0,0 0,45 57 0,8 109 5,38
Estrella Damm 1,00931 13,10 5,75 81,76 4,33 7,0 27,6 0,0 0,30 88 1,8 116 5,42
Estrella Damm 1,00998 12,89 5,54 80,10 4,22 6,5 27,0 0,0 0,35 50 1,2 113 5,20
Estrella Damm 1,01026 13,01 5,58 79,78 4,19 7,9 26,4 0,0 0,35 9 1,1 123 5,28
157
Estrella Damm 1,00859 13,07 5,57 79,58 4,10 6,7 23,3 0,0 0,63 41 3,6 110 5,35
Estrella Damm 1,00859 12,98 5,52 79,50 4,17 6,7 26,4 0,0 0,33 51 5,8 121 5,44
Estrella Damm 1,00812 13,17 5,69 80,60 4,19 6,7 26,3 0,0 0,51 24 4,3 109 5,48
Estrella Damm 1,00923 13,16 5,54 78,49 4,18 6,8 21,4 0,0 0,32 36 3,7 119 5,35
Estrella Damm 1,00810 13,05 5,65 80,50 4,18 6,7 25,7 0,0 0,38 57 3,2 127 5,17
Estrella Damm 1,00850 13,09 5,59 79,77 4,17 6,9 25,0 0,0 0,30 28 4,8 115 5,35
Estrella Damm 1,00880 12,98 5,49 79,00 4,27 7,2 24,3 0,0 0,36 35 3,1 109 5,27
Voll Damm 1,01506 17,11 7,32 77,53 4,46 16,3 30,2 0,3 0,99 62 2,1 121 5,48
Voll Damm 1,01645 16,85 6,99 75,09 4,32 15,5 32,5 0,0 0,45 60 2,0 124 5,45
Voll Damm 1,01535 16,92 7,18 76,84 4,33 16,0 30,7 0,0 0,58 51 2,3 119 5,37
Voll Damm 1,01607 16,63 6,91 75,35 4,27 15,3 35,7 0,0 0,43 142 3,0 116 5,29
Voll Damm 1,01652 16,97 7,00 75,20 4,36 15,8 33,6 0,0 0,46 41 1,5 115 5,33
Voll Damm 1,01294 15,89 6,64 76,27 4,31 15,4 32,1 0,0 0,47 26 1,4 121 5,28
Voll Damm 1,01281 16,78 7,16 77,72 4,45 15,9 37,3 0,0 0,44 151 3,4 116 5,32
Voll Damm 1,01328 17,05 7,30 77,40 4,23 14,8 33,2 0,0 0,54 50 3,7 122 5,27
Voll Damm 1,01279 17,10 7,40 78,20 4,24 14,5 35,0 0,0 0,64 33 3,4 111 5,34
Voll Damm 1,01254 16,75 7,18 78,08 4,27 14,3 29,9 0,0 0,46 37 2,0 127 5,13
Voll Damm 1,01546 16,77 6,80 73,74 4,25 17,6 31,5 0,0 0,50 40 0,6 126 5,36
Voll Damm 1,01240 17,12 7,42 78,77 4,22 15,2 33,4 0,0 0,62 32 3,5 116 5,54
Voll Damm 1,01365 17,05 7,21 76,80 4,41 14,7 30,9 0,0 0,67 70 1,7 121 5,22
Askania 1,00489 10,72 4,74 83,94 4,37 9,0 21,4 0,0 0,71 29 3,9 113 5,31
Askania 1,00596 10,55 4,74 85,48 4,34 8,2 21,0 0,0 0,98 27 1,8 113 5,27
158
Askania 1,00661 10,74 4,76 84,20 4,19 8,3 20,7 0,0 0,58 33 4,2 124 5,20
Askania 1,00772 10,73 4,62 81,51 4,24 8,2 20,9 0,0 0,98 68 2,6 121 5,34
Steinburg 1,00365 10,61 4,80 85,70 3,93 7,1 10,9 0,2 1,40 38 3,3 126 5,22
Steinburg 1,00631 10,58 4,72 84,65 4,05 7,2 17,6 0,6 0,52 61 2,3 118 5,17
Steinburg 1,00733 10,59 4,61 82,24 4,20 8,0 16,5 0,3 0,57 93 2,5 131 5,23
Steinburg 1,00750 10,38 4,47 81,48 4,10 7,1 16,6 0,0 0,64 48 3,0 119 6,00
Steinburg 1,00488 10,69 4,72 83,92 4,15 7,6 15,6 1,0 0,58 47 1,3 124 5,19
Steinburg 1,00667 10,73 4,51 79,70 4,33 7,5 20,0 1,1 0,44 65 2,8 122 5,26
Steinburg 1,00679 10,78 4,76 83,82 4,22 8,3 17,3 0,5 0,44 213 0,7 121 5,18
Steinburg 1,00538 10,77 4,70 82,85 3,97 7,4 17,2 0,6 0,60 188 1,7 130 5,09
Steinburg 1,00733 10,91 4,76 82,75 4,02 7,0 16,6 0,0 0,57 40 2,0 126 5,21
Steinburg 1,00739 10,47 4,52 81,86 4,24 7,7 14,4 0,3 0,51 173 4,8 122 5,34
Steinburg 1,00786 10,73 4,59 81,19 4,12 7,1 16,8 1,4 0,66 29 1,2 124 5,26
Steinburg 1,00598 10,78 4,63 81,43 4,06 8,0 19,0 0,7 0,53 72 2,6 123 5,78
Steinburg 1,00561 10,70 4,64 82,20 4,10 6,9 18,3 1,7 0,69 39 0,9 128 5,46
Grafenwalder 1,00493 11,35 5,09 84,60 4,56 6,3 24,1 1,0 0,65 34 5,4 114 5,57
Grafenwalder 1,00740 11,45 5,07 83,40 4,40 5,7 23,4 0,0 0,45 21 2,7 118 5,06
Grafenwalder 1,00770 11,39 4,99 82,63 4,34 7,5 25,1 0,4 1,10 29 3,0 121 5,41
Grafenwalder 1,00688 11,35 5,08 84,41 4,36 7,9 21,7 0,0 4,30 30 2,8 126 5,31
Grafenwalder 1,00582 11,34 4,95 82,69 4,29 8,0 22,4 0,0 0,49 26 1,8 110 5,50
Grafenwalder 1,00583 11,38 4,98 82,76 4,53 9,5 25,7 0,0 0,64 46 2,8 117 5,29
Grafenwalder 1,00736 11,29 4,97 83,26 4,52 6,9 24,1 0,4 0,62 30 2,7 118 5,25
159
Grafenwalder 1,00771 11,59 4,86 78,94 4,50 5,6 29,2 0,0 0,47 35 2,8 107 4,93
Grafenwalder 1,00796 11,40 4,95 82,07 4,30 7,6 26,2 0,0 0,53 110 6,2 122 5,11
Grafenwalder 1,00599 11,43 5,00 82,47 4,44 6,0 27,3 0,4 0,59 104 2,0 124 5,05
Grafenwalder 1,00580 11,40 5,00 82,85 4,37 7,5 26,0 0,0 0,60 31 1,0 121 5,19
Grafenwalder 1,00689 11,52 4,92 80,62 4,26 7,2 28,7 0,5 0,51 29 0,3 118 5,01
Grafenwalder 1,00647 11,43 4,93 81,40 4,35 7,9 27,4 1,1 0,77 39 3,7 112 5,29
Cruzcampo 1,00771 11,31 4,96 82,50 4,18 7,5 28,5 1,5 0,54 70 5,4 244 5,81
Cruzcampo 1,00755 11,36 4,98 82,90 4,18 7,6 22,7 1,0 0,59 50 6,1 250 5,89
Cruzcampo 1,00727 11,17 4,91 83,26 4,22 6,8 25,7 1,1 0,57 43 6,5 255 5,59
Cruzcampo 1,00835 11,06 4,70 80,60 4,25 6,0 26,2 1,7 0,65 31 5,2 248 5,45
Cruzcampo 1,00805 11,35 4,91 81,70 4,24 6,6 23,3 1,5 0,88 84 8,4 250 5,65
Cruzcampo 1,00784 11,25 4,88 82,10 4,29 6,8 20,7 1,6 0,69 52 6,3 247 5,48
Cruzcampo 1,00942 11,17 4,63 78,40 4,29 7,1 27,1 0,7 0,60 67 5,5 257 5,52
Cruzcampo 1,00819 11,15 4,79 81,10 4,24 7,0 23,9 1,4 0,58 75 4,8 244 5,29
Cruzcampo 1,00848 11,51 4,95 81,00 4,19 6,7 23,7 0,7 0,58 66 1,2 247 5,57
Cruzcampo 1,00852 11,34 4,85 80,70 4,27 7,2 20,1 1,7 0,61 74 3,8 250 5,59
Cruzcampo 1,00847 11,28 4,82 80,76 4,39 6,5 22,2 1,9 0,70 60 3,9 259 5,35
Cruzcampo 1,00804 11,14 4,79 81,50 4,27 5,8 23,3 0,4 0,52 84 3,3 260 5,61
Carrefour Sin 1,01823 6,42 0,94 27,73 4,40 9,8 23,6
0,37 62 1,5 242 5,35
Carrefour Sin 1,01859 6,33 0,84 25,28 4,16 10,5 19,7
0,58 65 2,1 240 5,32
Carrefour Sin 1,01831 6,07 0,74 23,23 4,22 10,1 17,0
0,58 74 2,4 263 5,36
Carrefour Sin 1,01671 5,79 0,81 26,42 4,34 10,7 15,1
0,58 62 1,8 282 5,23
160
Carrefour Sin 1,01751 6,18 0,65 20,39 4,60 8,7 22,1
0,33 0 1,9 274 5,13
Carrefour Sin 1,01720 6,31 0,76 23,30 4,53 8,4 18,6
0,23 12 2,3 273 5,24
Carrefour Sin 1,01708 6,38 0,81 24,61 4,34 9,6 19,2
0,26 17 2,5 269 5,60
Carrefour Sin 1,00993 4,45 0,73 32,39 4,06 9,3 12,9
0,61 4 2,1 353 5,62
Carrefour Sin 1,01658 6,38 0,87 26,49 4,36 11,0 21,7
0,44 64 0,8 245 5,26
Carrefour Sin 1,01623 6,15 0,80 25,20 4,47 10,5 19,0
1,50 32 1,1 287 5,08
Carrefour Sin 1,01684 6,14 0,72 22,64 4,59 10,2 22,6
0,50 9 0,7 294 5,25
Carrefour Sin 1,01719 6,20 0,70 21,86 4,62 9,4 23,8
0,41 30 0,9 289 5,30
Cruzcampo Gran Reserva 1,00970 14,28 6,36 82,60 4,40 17,8 27,0 1,1 1,80 68 8,5 253 5,79
Cruzcampo Gran Reserva 1,00960 14,39 6,02 82,90 4,27 17,2 26,5 2,0 0,76 50 7,9 263 5,69
Cruzcampo Gran Reserva 1,00723 14,09 6,52 86,81 4,34 15,8 24,4 0,8 0,90 55 9,2 258 5,38
Cruzcampo Gran Reserva 1,00893 14,38 6,46 84,10 4,26 14,8 31,5 1,6 0,94 41 8,8 261 5,57
Cruzcampo Gran Reserva 1,00983 14,09 5,99 78,83 4,24 15,2 27,9 0,7 1,44 219 9,7 260 5,63
Cruzcampo Gran Reserva 1,01296 14,41 6,00 77,00 4,38 16,8 27,4 1,7 0,65 87 9,1 260 5,55
Cruzcampo Gran Reserva 1,01164 14,43 6,19 79,30 4,35 13,6 27,3 1,2 1,00 129 7,6 272 5,67
Cruzcampo Gran Reserva 1,01207 14,44 6,14 78,60 4,21 15,5 26,1 1,8 1,07 169 7,5 255 5,84
Cruzcampo Gran Reserva 1,01020 14,49 6,39 81,90 4,37 15,7 23,6 1,5 1,18 76 6,9 265 6,15
Cruzcampo Gran Reserva 1,01039 14,41 6,34 81,50 4,28 16,4 23,2 1,4 3,06 51 7,4 267 5,65
Cruzcampo Gran Reserva 1,01018 14,39 6,36 81,86 4,40 14,7 24,9 1,4 1,16 120 8,2 255 5,53
Cruzcampo Gran Reserva 1,01055 14,22 6,21 81,00 4,41 14,9 25,8 1,5 0,75 174 6,8 268 5,70
Cruzcampo Light 1,00940 7,54 2,69 68,04 4,21 7,1 17,8
0,53 50 5,4
5,04
Cruzcampo Light 1,01039 7,32 2,43 63,66 4,14 7,4 25,7
1,51 57 5,1 218 5,35
161
Cruzcampo Light 1,01038 7,75 2,67 65,68 4,15 7,3 23,6
2,45 66 5,6 240 5,50
Cruzcampo Light 1,00891 7,68 2,82 70,31 4,29 7,3 26,8
1,60 74 6,0 241 5,18
Cruzcampo Light 1,00914 7,54 2,45 62,73 4,43 6,0 28,8
1,06 56 6,3 257 5,34
Cruzcampo Light 1,00930 7,58 2,46 62,40 4,43 10,1 23,8
3,87 53 6,5 256 5,41
Cruzcampo Light 1,00956 7,95 2,62 63,40 4,31 6,1 25,1
56 5,5 178 5,65
Cruzcampo Light 1,00872 7,74 2,62 65,10 4,20 6,2 27,1
0,71 47 5,2 185 5,52
Cruzcampo Light 1,00869 7,24 2,35 62,85 4,39 6,5 27,5
0,28 143 7,5 220 5,61
Cruzcampo Light 1,00835 7,18 2,36 63,65 4,40 6,5 27,2
1,10 204 6,8 230 5,58
Cruzcampo Light 1,00641 5,63 1,80 62,52 4,49 6,6 23,6
1,48 119 3,1 229 5,50
Cruzcampo Light 1,00885 7,44 2,44 63,25 4,57 6,3 30,0
0,41 165 4,9 247 5,66
Dorada 1,00578 13,06 5,47 78,22 4,33 8,0 21,7
1,05 14 1,3 273 5,16
Dorada 1,00779 13,04 5,66 81,11 4,12 7,7 17,7
0,39 46 1,7 258 5,01
Dorada 1,00689 13,04 5,66 81,05 4,28 7,8 18,3
1,21 20 1,6 253 5,05
Dorada 1,00543 13,06 5,52 78,90 4,24 7,6 18,8
0,70 30 1,6 261 5,02
Dorada 1,00440 12,99 5,61 80,66 4,36 7,6 26,8
1,26 26 2,3 256 5,11
Dorada 1,00903 13,13 5,54 78,82 4,33 8,4 21,6
1,86 109 1,5 336 5,04
Dorada 1,00915 13,26 5,64 79,26 4,38 8,8 21,8
0,94 98 0,2 232 5,17
Dorada 1,00405 13,04 5,68 81,39 4,38 8,9 24,3
0,60 25 2,1 231 5,20
Dorada 1,00801 13,07 5,65 80,72 4,32 8,1 24,3
0,92 62 1,8 258 4,79
Dorada 1,00704 13,00 5,74 82,52 4,45 8,9 23,9
0,62 45 4,1 255 4,98
Dorada 1,00530 13,35 5,68 80,57 4,73 8,8 25,7 0,7 1,17 80 7,3 242 4,96
Dorada 1,00260 13,34 6,00 83,98 4,60 9,2 24,0
2,52 63 6,5 237 5,43
162
Carrefour Especial 1,00207 12,52 5,66 84,80 4,40 8,2 16,1
1,90 29 1,9 231 4,80
Carrefour Especial 1,00646 13,19 5,93 83,91 4,28 7,2 19,2
6,74 34 1,5 252 5,04
Carrefour Especial 1,00642 13,24 5,96 84,03 4,32 7,2 19,1
4,62 40 1,4 239 5,06
Carrefour Especial 1,00226 13,12 5,93 84,56 4,28 8,7 19,4
1,95 34 0,7 222 5,10
Carrefour Especial 1,00230 13,08 5,90 84,37 4,32 7,7 23,6
1,25 28 0,7 199 5,14
Carrefour Especial 1,00666 13,19 5,98 83,35 4,38 6,9 20,9
6,45 34 1,4 229 5,30
Carrefour Especial 1,00646 13,06 5,89 84,24 4,41 6,4 19,1
3,27 41 0,6 220 5,26
Carrefour Especial 1,00308 13,03 5,79 83,15 4,42 6,6 18,8
2,25 40 1,0 217 5,12
Carrefour Especial 1,00278 13,33 5,98 83,74 4,73 8,6 15,4 1,2 3,44 33 0,6 221 5,28
Carrefour Especial 1,00387 13,15 5,75 81,66 4,63 8,8 14,5
4,53 58 1,5 228 5,24
Tabla 3.16 Resultados analíticos variables originales de 14 marcas de cerveza diferentes
163
Cervezas de mercado
Figura 3.11 Gráfico de funciones discriminantes para 14 de las 16
marcas de cerveza estudiadas
Estos grupos son difíciles de discriminar, aunque en el estudio, las tablas de clasificación muestran un 99,29% de casos correctamente clasificados, es decir uno sólo de los 184 casos estudiados ha sido incorrectamente clasificado, confundido precisamente en el primer grupo de mezcla (Grafenwalder en lugar de Heineken) como grupo más alto. Como segundo grupo más alto lo clasifica correctamente.
Esto quiere decir que, aunque los grupos se encuentran cerca, los centroides de grupo están separados para poder discriminar con confianza.
En la Figura 3.12 se observan mejor estos dos grupos con escala aumentada de las funciones discriminantes.
Gráfica de Funciones Discriminantes
-51 -31 -11 9 29 49
Función 1
-22
-12
-2
8
18
Fu
nci
ón
2
MarcaAmstelAskaniaBuckler 00Carrefour EspecialCruz. Gran ReservaCruzcampoCruzcampo ShandyDoradaEstrella DammEstrella GaliciaGrafenwalderHeinekenSteinburgVoll Damm
164
Cervezas de mercado
Figura 3.12 Zoom de parte del gráfico de funciones discriminantes para
las 14 marcas de cerveza estudiadas
Como vemos en la Figura 3.12, los centroides de grupo, representados como puntos verde claro, se encuentran separados lo suficiente como para poder llevar a cabo una buena clasificación.
Si tenemos en cuenta los coeficientes de la función discriminante F1, podemos optimizar la discriminación eliminando todas las variables originales y dejando sólo en el estudio ESP y GAF (Tabla 3.17). La Figura 3.13 muestra el nuevo gráfico donde, sin perder información relevante, podemos llegar a discriminar todas las cervezas realizando un sólo análisis de ESP y GAF (que suele obtenerse en un mismo equipo de densimetría digital).
Gráfica de Funciones Discriminantes
-1 4 9 14 19 24 29
Función 1
0
2
4
6
8
10
Fu
nci
ón
2
MarcaAmstelAskaniaBuckler 00Carrefour EspecialCruz. Gran ReservaCruzcampoCruzcampo ShandyDoradaEstrella DammEstrella GaliciaGrafenwalderHeinekenSteinburgVoll Damm
165
Cervezas de mercado
A 1 2 Densidad -0,00338577 0,127807
ESP 0,748245 -0,33589 Alcohol 0,0919922 -0,632065
GAF 0,527042 1,258 pH 0,360851 0,190311
Color 0,165781 -0,36187 Isoh 0,191518 -0,0646649 THIA -0,269028 -0,00527157
Turbidez 0,00248602 0,0296013 VDK 0,0541678 0,0705412 SO2 0,0837616 0,00624738
Espuma 0,0635106 -0,0277766 CO2 -0,182237 0,00665113
Tabla 3.17 Coeficientes de las funciones de discriminación F1 y F2
En el gráfico podemos observar cómo se agrupan las cervezas sin alcohol y light en la mitad izquierda, las cervezas de alto contenido alcohólico en la zona superior derecha (Voll Damm y Cruzcampo Gran Reserva) y en la zona central el resto, en torno a 4-5,5% vol. de alcohol.
Se puede afirmar también, a la vista de estos resultados, que aquellas cervezas sin alcohol y las de mayor contenido alcohólico (tipo extra) suelen tener mayores diferencias entre marcas, mientras que las de tipo llamados “normal” y “especial” suelen ser más parecidas entre ellas.
166
Cervezas de mercado
Figura 3.13 Gráfico de funciones discriminantes optimizadas
3 COMPARATIVA PROGRAMAS ESTADÍSTICOS
En el mercado existe gran variedad de paquetes estadísticos que cubren todos los ámbitos de aplicación de la Estadística. En este estudio hemos valorado las diferencias existentes en los resultados de los procedimientos empleados entre diferentes paquetes estadísticos con aplicación en el ámbito científico. Los paquetes elegidos han sido Statgraphics Centurion, Statistica, Minitab, SPSS y XLStat (como complemento de Microsoft Excel)
Cervezas Pils 5,6 y Pils Strong
Ya vimos el resultado del análisis discriminante para este grupo de cervezas obtenido con Statgraphics (Figura 3.14) que se vuelve a presentar a continuación
Gráfica de Funciones Discriminantes
-41 -21 -1 19 39
Función 1
-15
-10
-5
0
5
10
15
Fun
ció
n 2
MarcaAmstelAskaniaBuckler 00Carrefour EspecialCarrefour SinCruz. Gran ReservaCruzcampoCruzcampo LightCruzcampo ShandyDoradaEstrella DammEstrella GaliciaGrafenwalderHeinekenSteinburgVoll Damm
167
Cervezas de mercado
Figura 3.14 Gráfico de funciones discriminantes en Statgraphics Centurion XVII
Comparémosla ahora con la obtenida con otros programas estadísticos. Vamos a trabajar en paralelo con cuatro programas estadísticos complementarios: Statistica, SPSS, Minitab y XLStat. Analizaremos tanto su facilidad de uso (introducción de datos y ejecución de los métodos) como sus salidas (gráficas y de tablas). Vamos a comenzar este mismo estudio por Statistica, obteniendo como salida gráfica la Figura 3.15.
Podemos observar una estructura idéntica en el interior de los grupos y en la distancia entre grupos, incluidos los valores de escala en cada eje. Las pequeñas diferencias encontradas están más relacionadas con su utilización en maquetación de publicaciones que en el aparato matemático de cálculo.
Gráfica de Funciones Discriminantes
-20 -10 0 10 20 30 40
Función 1
-12
-8
-4
0
4
8
12
Fu
nci
ón
2
TipoPils 5,6 APils 5,6 BPils 5,6 CPils Strong APils Strong B
168
Cervezas de mercado
Figura 3.15 Gráfico de funciones discriminantes en Statistica
Si realizamos este mismo ejercicio con el paquete SPSS, obtenemos el gráfico de la Figura 3.16.
Donde tampoco se observan diferencias en cuanto a estructuras de grupos y distancia entre los mismos. Si bien es cierto que SPSS es un paquete más difícil de usar en cuanto a preparación de gráficos para su presentación final.
Root 1 vs. Root 2
Pils 5,6 A Pils 5,6 B Pils 5,6 C Pils Strong A Pils Strong B
-30 -20 -10 0 10 20 30 40 50
Root 1
-15
-10
-5
0
5
10
15
20
Ro
ot
2
169
Cervezas de mercado
En el caso de Minitab, no se puede realizar directamente un gráfico de las funciones discriminantes principales. Hay que calcular cada punto a representar a través de complejas fórmulas en columnas adicionales y, posteriormente, representar cada punto con sus coordenadas (F1, F2) en un gráfico de dispersión de F1 frente a F2.
Figura 3.16 Gráfico de funciones discriminantes en SPSS
Por último, en XLStat, obtenemos un gráfico bastante parecido (Figura 3.17) conde los grupos encuentran las mismas posiciones y escalas y cada grupo tiene formas similares a las anteriores.
Función 1
50403020100-10-20-30
Fu
nció
n 2
20
15
10
5
0
-5
-10
-15
funciones discriminantes canónicas
Centroide de grupo
5
4
3
2
1
Cerveza
170
Cervezas de mercado
Figura 3.17 Gráfico de funciones discriminantes en XLStat
Hay que tener en cuenta que entre los distintos paquetes estadísticos pueden haber pequeñas diferencias en el método de cálculo de los coeficientes de las variables originales en las funciones discriminantes al usar modelos matemáticos ligeramente diferentes. Esto es lo que hace cambiar suavemente de aspecto pero, en general, se mantienen bastante parecidos los gráficos.
Con respecto a los valores numéricos de los coeficientes, existen leves diferencias numéricas excepto en XLStat en que se muestran las mayores diferencias.
-15
-10
-5
0
5
10
15
20
-30 -20 -10 0 10 20 30 40
-- e
je F
2 (
5,7
5 %
) --
>
-- eje F1 (93,41 %) -->
Observaciones (ejes F1 y F2: 99,16 %)
Pils 5,6 A
Pils 5,6 B
Pils 5,6 C
Pils Strong A
Pils Strong B
171
Cervezas de mercado
En la Tabla 3.18 se muestran los coeficientes de Statistica.
Tabla 3.18. Coeficientes estandarizados de las funciones de discriminación en Statistica
Tabla que muestra también los autovectores y la varianza explicada.
En la Tabla 3.19 se muestran los del programa estadístico SPSS.
Standardized Coefficients (Spreadsheet3)for Canonical Variables
Variable Root 1 Root 2 Root 3 Root 4
EA
Alcohol
ESP
GAF
Color
Amargo
CO2
pH
VDK
SF
Turbidez
Espuma
Isoh
THIA
SO2
Eigenval
Cum.Prop
-0,1019 0,31367 -0,22815 -0,48691
1,0502 -0,63119 1,07362 -1,54293
0,9117 -0,26140 -0,62542 0,80375
-0,4972 0,63959 -1,34032 1,63330
0,4604 1,06488 0,37252 0,33115
0,3332 0,92557 -0,62659 0,51631
-0,4164 -0,56557 0,21405 -0,93776
-0,2838 0,10400 -0,31558 0,05768
0,1582 0,01439 0,20174 -0,49609
0,6021 0,91223 -0,46913 1,51770
-0,7305 -0,86082 0,89643 -1,54009
0,1468 -0,52080 -0,08614 -0,27449
-0,2202 -0,16660 0,44953 -1,15987
-0,0707 0,26520 -0,63684 0,45839
0,2592 0,06982 -0,52801 0,23722
600,8519 36,98076 4,60122 0,78888
0,9341 0,99162 0,99877 1,00000
172
Cervezas de mercado
Función discriminante 1 2 3 4 EA -0,108 0,294 0,226 0,495 Alcohol 1,063 -0,717 -1,001 1,543 ESP 0,918 -0,209 0,595 -0,813 GAF -0,508 0,731 1,255 -1,633 Color 0,478 1,047 -0,370 -0,328 Amargo 0,342 0,914 0,636 -0,512 CO2 -0,429 -0,572 -0,197 0,925 pH -0,291 0,078 0,302 -0,025 VDK 0,162 0,026 -0,214 0,497 SF 0,636 0,922 0,474 -1,552 Turbidez -0,749 -0,862 -0,900 1,554 Espuma 0,147 -0,514 0,089 0,251 Isoh -0,210 -0,157 -0,452 1,141 THIA -0,090 0,273 0,623 -0,452 SO2 0,272 0,083 0,530 -0,244
Tabla 3.19 Coeficientes estandarizados de las funciones de
discriminación en SPSS
Por último, en la Tabla 3.20, se muestran los del módulo XLStat de Excel.
De nuevo en Minitab, no podemos obtener directamente los valores de los coeficientes, habría que calcularlos usando fórmulas en columnas.
El uso de estos programas estadísticos es variable, los hay muy sencillos durante la introducción de datos y realización de los análisis (Statgraphics Centurion XVII y XLSTAT) hasta los muy difíciles de interactuar con ellos en su parte gráfica (SPSS, Minitab) o en su parte de introducción y análisis de datos (SPSS, Statistica).
173
Cervezas de mercado
Variable F1 F2 F3 F4 EA -0,102 -0,314 -0,228 0,487 Alc 1,050 0,631 1,074 1,543 ESP 0,912 0,261 -0,625 -0,804 GAF -0,497 -0,640 -1,340 -1,633 Color 0,460 -1,065 0,373 -0,331 Amargo 0,333 -0,926 -0,627 -0,516 CO2 -0,416 0,566 0,214 0,938 pH -0,284 -0,104 -0,316 -0,058 VDK 0,158 -0,014 0,202 0,496 S.F. 0,602 -0,912 -0,469 -1,518 Turbidez -0,731 0,861 0,896 1,540 Espuma 0,147 0,521 -0,086 0,274 Isoh -0,220 0,167 0,450 1,160 THIA -0,071 -0,265 -0,637 -0,458 SO2 0,259 -0,070 -0,528 -0,237
Tabla 3.20 Coeficientes estandarizados de las funciones de
discriminación en XLStat
174
Análisis de conglomerados (cluster analysis)
4 ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS)
4.1 Cervezas Pils 5,6 y Pils Strong
A los datos tratados anteriormente en el ADL, aplicamos ahora el análisis de conglomerados, que puede darnos una información complementaria de robustez a los resultados obtenidos en el análisis discriminante.
Si tenemos en cuenta los datos de la Tabla 3.1, para cervezas Pils 5,6 y Pils Strong, es decir cervezas con recorrido de alcohol entre 5,6 y 7,0% vol, obtenemos un dendrograma (Figura 3.18) en el que se observan agrupaciones separadas en las Pils Strong y algo de mezcla en las Pils 5,6 sobre todo la A con la B.
Figura 3.18 Dendrograma de Pils 5,6 y Pils Strong por el método vecino más cercano
Dendrogram aMétodo del vecino m ás cercano, Euclideana cuadrada
0
2
4
6
8
10
12
Dis
ta
nc
ia
Pil
s 5
.6
A
Pil
s 5
.6
A
Pil
s 5
,6
A
Pil
s 5
,6
A
Pil
s 5
,6
A
Pil
s 5
,6
A
Pil
s 5
,6
A
Pil
s 5
,6
A
Pil
s 5
,6
A
Pil
s 5
,6
A
Pil
s 5
,6
A
Pil
s 5
,6
A
Pil
s 5
,6
B
Pil
s 5
,6
B
Pil
s 5
,6
B
Pil
s 5
,6
B
Pil
s 5
,6
B
Pil
s 5
,6
B
Pil
s 5
,6
B
Pil
s 5
,6
BP
ils
5
,6
B
Pil
s 5
,6
B
Pil
s 5
,6
B
Pil
s 5
,6
B
Pil
s 5
,6
C
Pil
s 5
,6
C
Pil
s 5
,6
C
Pil
s 5
,6
C
Pil
s 5
,6
C
Pil
s 5
,6
C
Pil
s 5
,6
C
Pil
s 5
,6
CP
ils
5
,6
C
Pil
s 5
,6
C
Pil
s 5
,6
C
Pil
s 5
,6
C
Pil
s S
tr
on
g A
Pil
s S
tr
on
g A
Pil
s S
tr
on
g A
Pil
s S
tr
on
g A
Pil
s S
tr
on
g A
Pil
s S
tr
on
g A
Pil
s S
tr
on
g A
Pil
s S
tr
on
g A
Pil
s S
tr
on
g A
Pil
s S
tr
on
g A
Pil
s S
tr
on
g B
Pil
s S
tr
on
g B
Pil
s S
tr
on
g B
Pil
s S
tr
on
g B
Pil
s S
tr
on
g B
Pil
s S
tr
on
g B
Pil
s S
tr
on
g B
Pil
s S
tr
on
g B
Pil
s S
tr
on
g B
Pil
s S
tr
on
g B
175
Análisis de conglomerados (cluster analysis)
Si en lugar de usar como métrica de distancia, en lugar de la euclideana cuadrada la euclideana o el bloque habitacional, los resultados son algo peores.
Si cambiamos al método del vecino más lejano y como métrica la euclideana cuadrada, los conglomerados se resuelven algo mejor (Figura 3.19) encontrando mejor resueltos no sólo las dos Pils Strong sino también la Pils 5,6 C. Las cervezas Pils 5,6 A y B siguen sin resolverse bien.
Figura 3.19 Dendrograma de Pils 5,6 y Pils Strong por el método del vecino más lejano
Dendrogram aMétodo del vecino m ás lejano, Euclideana cuadrada
0
10
20
30
40
Dis
ta
nc
ia
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
S
tr
on
g A
Pils
S
tr
on
g A
Pils
S
tr
on
g A
Pils
S
tr
on
g A
Pils
S
tr
on
g A
Pils
S
tr
on
g A
Pils
S
tr
on
g A
Pils
S
tr
on
g A
Pils
S
tr
on
g A
Pils
S
tr
on
g A
Pils
S
tr
on
g B
Pils
S
tr
on
g B
Pils
S
tr
on
g B
Pils
S
tr
on
g B
Pils
S
tr
on
g B
Pils
S
tr
on
g B
Pils
S
tr
on
g B
Pils
S
tr
on
g B
Pils
S
tr
on
g B
Pils
S
tr
on
g B
176
Análisis de conglomerados (cluster analysis)
Usando el método Ward y métrica Euclideana cuadrada, obtenemos una agrupación de conglomerados algo más resuelta (Figura 3.20)
Figura 3.20 Dendrograma de Pils 5,6 y Pils Strong por el método Ward
Los grupos de Pils Strong y Pils 5,6 C se resuelven muy bien, los otros están mezclados pero algo mejor resueltos en su composición interna. Se ven claramente 4 conglomerados separados, tres de ellos correspondientes a los tres grupos anteriormente citados y el cuarto conglomerado (a la izquierda en la Figura 3.20) que corresponde a la mezcla de Pils 5,6 A con B. Dentro de este conglomerado pueden verse dos subgrupos donde,
Método de Ward, Euclideana cuadradaDendrograma
0
50
100
150
200
250
300
Dis
ta
nc
ia
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
A
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
B
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
5
,6
C
Pils
S
tr
on
g A
Pils
S
tr
on
g A
Pils
S
tr
on
g A
Pils
S
tr
on
g A
Pils
S
tr
on
g A
Pils
S
tr
on
g A
Pils
S
tr
on
g A
Pils
S
tr
on
g A
Pils
S
tr
on
g A
Pils
S
tr
on
g A
Pils
S
tr
on
g B
Pils
S
tr
on
g B
Pils
S
tr
on
g B
Pils
S
tr
on
g B
Pils
S
tr
on
g B
Pils
S
tr
on
g B
Pils
S
tr
on
g B
Pils
S
tr
on
g B
Pils
S
tr
on
g B
Pils
S
tr
on
g B
177
Análisis de conglomerados (cluster analysis)
en el primero, predomina A y en el segundo B. Es decir, hay cierta resolución entre ellos a pesar de la mezcla.
4.2 Cervezas con recorrido de alcohol entre 3,0% y 5,0%
Usando los datos de la Tabla 7, y aplicando el método del vecino más cercano y métrica euclideana cuadrada obtenemos el dendrograma de la Figura 3.21 donde se observa resolución de casi todos los conglomerados excepto una muestra aislada de Shandy A. Si cambiamos la métrica a bloque habitacional (Figura 3.22) desaparece este aislamiento de muestra y salen perfectamente diferenciados los conglomerados por tipos de cerveza.
Figura 3.21 Dendrograma de Pils 4,5 – 5 y Shandy por el método vecino más cercano y métrica euclideana cuadrada
DendrogramaMétodo de l vecino más cercano, Euclideana cuadrada
0
1
2
3
4
5
6
Di
st
an
ci
a
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
178
Análisis de conglomerados (cluster analysis)
Figura 3.22 Dendrograma de Pils 4,5 – 5 y Shandy por el método vecino más cercano y métrica bloque habitacional
Una vez más, y como ya pudimos observar en el anterior estudio, el método Ward es el que nos da una resolución mayor sin confusiones de todos los conglomerados, siempre usando como métrica de distancia el bloque habitacional (Figura 3.23).
Se puede ver con facilidad la construcción de 5 conglomerados diferentes y cada uno de ellos pertenece a un tipo de cerveza distinta. Esto viene a confirmar lo anteriormente estudiado en el análisis discriminante lineal en el que usando los parámetros analíticos estudiados podemos discriminar entre diferentes tipos de cerveza.
DendrogramaMétodo de l vecino más cercano, Bloque Habitacional
0
1
2
3
4
5
6
Di
st
an
ci
a
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
179
Análisis de conglomerados (cluster analysis)
Figura 3.23 Dendrograma de Pils 4,5 – 5 y Shandy por el método Ward y métrica bloque habitacional
4.3 Cervezas con todo recorrido de alcohol
Usando los datos de las Tablas 3.1, 3.7 y 3.11, realizamos el estudio de todas las cervezas incluidas en el anterior estudio de ADL.
Cuando ejecutamos el análisis de conglomerados por el método Ward y métrica bloque habitacional (el que hasta ahora está dando mejores resultados de agrupación) podemos observar que diferencia con claridad los diferentes tipos de cerveza analizados (Figura 3.24).
DendrogramaMétodo de Ward, Bloque Habitacional
0
20
40
60
80
100
120
Di
st
an
ci
a
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
A
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
4
,5
B
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
Pils
5
180
Análisis de conglomerados (cluster analysis)
Figura 3.24 Dendrograma de todos los tipos de cerveza analizados, por el método Ward y métrica bloque habitacional
Sólo se encuentran, de nuevo, pequeñas alteraciones en alguna muestra de Pils 5,6 A con la B, como anteriormente.
Se puede concluir que el análisis de conglomerados es un método multivariante de tratamiento de datos que apoya los resultados del análisis discriminante lineal para este tipo de análisis.
DendrogramaMétodo de Ward, Bloque Habitacional
0
100
200
300
400
500
Di
st
an
ci
a
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
A
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Sh
an
dy
B
Pil
s 4
,5
A
Pil
s 4
,5
A
Pil
s 4
,5
A
Pil
s 4
,5
A
Pil
s 4
,5
B
Pil
s 4
,5
B
Pil
s 4
,5
B
Pil
s 4
,5
B
Pil
s 5
Pil
s 5
Pil
s 5
Pil
s 5
Pil
s 5
,6
A
Pil
s 5
,6
A
Pil
s 5
,6
A
Pil
s 5
,6
A
Pil
s 5
,6
B
Pil
s 5
,6
B
Pil
s 5
,6
B
Pil
s 5
,6
B
Pil
s 5
,6
C
Pil
s 5
,6
C
Pil
s 5
,6
C
Pil
s 5
,6
C
Pil
s S
tr
on
g A
Pil
s S
tr
on
g A
Pil
s S
tr
on
g A
Pil
s S
tr
on
g B
Pil
s S
tr
on
g B
Pil
s S
tr
on
g B
Ce
rv
ez
a 0
,0
Ce
rv
ez
a 0
,0
Ce
rv
ez
a 0
,0
Ce
rv
ez
a 0
,0
Ce
rv
ez
a S
in
Ce
rv
ez
a S
in
Ce
rv
ez
a S
in
Ce
rv
ez
a S
in
181
Análisis de conglomerados (cluster analysis)
4.4 Mismo tipo de cerveza en diferentes fábricas
Los datos de la Tabla 3.15, correspondientes a análisis de un mismo tipo de cerveza en cuatro fábricas diferentes, pueden también ser sometidos al análisis de conglomerados. Usando el método Ward y la métrica bloque habitacional, vemos en el dendrograma de la Figura 3.25 que la resolución no es tan perfecta como para considerarlo un método adecuado de agrupación en el caso de un mismo tipo de cerveza hecho en diferentes fábricas.
Figura 3.25 Dendrograma de mismo tipo de cerveza en diferentes fábricas
Método de Ward, Bloque HabitacionalDendrograma
0
50
100
150
200
250
300
Dis
ta
nc
ia
1 11 1 1 1 1 1 1 1 11 2 2 222 2 2 2 2222 3 3 3 3 3 3 3 3 3 3 3 3 4 44 4 4 44 44444
182
Análisis de conglomerados (cluster analysis)
4.5 Diferentes marcas del mercado
Por último, usando los datos de la Tabla 3.16, podemos comprobar si el análisis de conglomerados puede ser válido como método de agrupación de diferentes marcas de cerveza analizadas del mercado (Figura 3.26).
Figura 3.26 Dendrograma de diferentes marcas de cerveza del mercado
Se observan buenas agrupaciones en los tipos 2, 3, 5, 6, 7, 11 y 12 (Amstel, Cruzcampo Shandy, Buckler 00, Estrella Damm, Voll Damm, Cruzcampo y Cruzcampo Gran reserva respectivamente).
Método de Ward, Euclid eana cuadradaDendrograma
0
0,4
0,8
1,2
1,6
2(X 1000,0)
Di
st
an
ci
a
1 1 11 2 222 3 3 3344 4 4 5 5 55666 6 7 7 778 8 99 99
10
10
10
10
11
11
11
11
12
12
12
12
15
183
Análisis de conglomerados (cluster analysis)
El resto de tipos se entremezclan y no se pueden hacer distinciones importantes entre ellos.
184
185
CAPÍTULO 4
Tratamientos estadísticos y quimiométricos de datos
procedentes de análisis por luminometría ATP o
bioluminiscencia
186
187
ÍNDICE
RESUMEN
1 INTRODUCCIÓN
2 ANÁLISIS DE SUPERFICIES POR LUMINOMETRÍA ATP
2.1 Análisis estadístico básico
2.2 Estudios quimiométricos
2.2.1 Análisis discriminante lineal
2.2.2 Análisis de conglomerados
2.2.3 Análisis factorial
3 ANÁLISIS MICROBIOLÓGICOS CONVENCIONALES
188
189
RESUMEN
En este Capítulo se describe la técnica analítica de control de
limpieza de superficies por luminometría ATP o bioluminiscencia.
Haciendo uso de una reacción bioquímica que desprende luz
proporcionalmente a la concentración de moléculas de ATP
presentes en el medio, se llevan a cabo análisis de diversos puntos
de muestreo de tanques de proceso y su posterior tratamiento
estadístico. En primer lugar usando estadística básica y en
segundo lugar usando técnicas quimiométricas propias del
reconocimiento de pautas, como el análisis discriminante lineal y
el análisis de conglomerados. Se refiere también un pequeño
estudio usando análisis factorial.
Por último se definen los obstáculos para poder realizar el
mismo estudio sobre los análisis microbiológicos convencionales,
es decir, aquellos que se realizan inoculando la muestra sobre un
medio de cultivo específico y selectivo para las microbiotas que se
quieren estudiar.
190
191
1 INTRODUCCIÓN
Durante el proceso cervecero, es fundamental llevar a cabo un control y seguimiento de datos microbiológicos. Las contaminaciones microbiológicas que se producen en la cerveza no son patológicas, es decir no suponen un peligro para la salud del consumidor, como hemos visto en la introducción de la tesis, pero sí suponen un peligro claro para la calidad del producto. Hay microorganismos que proceden de alguna materia prima, otros compiten con la levadura durante la fermentación industrial del mosto, otros proceden de una contaminación externa (manipulaciones indebidas durante el proceso de fabricación). Ninguno de ellos producen patologías en el ser humano pero sí degradan el producto de una forma considerable porque su presencia produce metabolitos que afectan a su calidad (fundamentalmente desarrollo de malos olores, sabores o cierto tipo de turbidez).
Históricamente, el sector cervecero ha realizado análisis microbiológicos clásicos para el control y seguimiento de su proceso, producto. Estos análisis microbiológicos llamados “clásicos” son la siembra de la muestra en un medio de cultivo
Introducción
192
selectivo en su composición para una determinada microbiota ampliamente conocida. Estos medios de cultivo solían estar preparados en placas, tubos de ensayo o, actualmente, en una membrana de filtración, que permite el análisis de una muestra más representativa en cuanto a volumen utilizado.
Entre los medios de cultivo más característicos han destacado el Nutrient Medium, Differential Medium, MRS, YM, Raka-Ray, NBB, etc. que permiten ver bien la microbiota general o la selectiva que nos interese en cada momento del proceso, desde la levadura de producción hasta el producto final ya envasado pasando por las fases de fermentación, guarda y tanques de cerveza filtrada.
Hace ya unos años, a principios de la década de los 90, la compañía LUMAC desarrolla el primer equipo de bioluminiscencia comercial para usar en plantas del sector alimentario. Era un procedimiento complejo, largo, tedioso y no portátil. Fue el primer equipo con el que controlamos la higiene de superficies tras la limpieza. A mitad de los 90, sale al mercado Biotrace Unilite Xcel, completamente portátil y que hace la vida más fácil y rápida al analista ya que el control se hace sobre el propio campo. Posteriormente, y de forma paralela, van mejorando los bastoncillos, al principio con el kit externo para al final convertirse en un “todo en uno” y en el que desaparecen las manipulaciones durante el análisis.
La finalidad de estos análisis de superficies por bioluminiscencia no es la de detectar determinadas microbiotas, ni siquiera de cuantificarlas sino la de convertirse en un “pasa – no pasa” de una instalación tras su limpieza, sea automática o manual. La rapidez del control de superficies viene a contrarrestar esa toma de decisiones “a posteriori” que significa la recogida de muestra, inoculación en medio de cultivo, incubación, lectura y control microscópico convencional que, en todas las ocasiones obligaba a una toma de decisiones en forma de tendencias y, en el peor de
Introducción
193
los casos, la paralización de producto en almacén hasta la finalización del análisis, en muchos casos de casi una semana.
La bioluminiscencia se convierte en el primer análisis, con la finalidad de control microbiológico, que puede usarse de forma preventiva. Así, la superficie analizada que no pasaba el control era de nuevo limpiada hasta que el control fuese correcto.
Hoy en día, con el control de superficies preventivo instalado, digamos el “continente” controlado, sólo queda pendiente el control preventivo del producto. Todavía se deben seguir utilizando técnicas bastante clásicas en las que las mejoras han llegado por el ámbito de la eliminación de la contaminación cruzada (cada vez menos manipulación durante el análisis) y la representatividad de la muestra (filtración en membrana). Queda pendiente un punto importante, la rapidez del análisis. Todavía existen análisis de una semana de incubación aunque se están desarrollando técnicas muy sofisticadas como la citometría de flujo o la técnica de PCR en tiempo real que podrán dar solución a este eterno problema de la prevención y el almacenamiento de producto hasta la salida de los resultados. Bastarán unos años para poder ver desarrolladas técnicas en citómetros de flujo que sean capaces no sólo de cuantificar sino de especificar de qué microorganismo o microorganismos se trata.
Durante el proceso cervecero es fundamental controlar todos estos microorganismos. Para ello, ya hemos comentado, hay pruebas directas como la siembra de muestra en un medio de cultivo adecuado y selectivo para los microorganismos buscados y medidas indirectas como:
a) ciertos análisis químicos cuya presencia delata la existencia de dichos microorganismos (ácido láctico, ácido acético, diacetilo, etc.)
b) Control de superficies, ya sean líneas de transferencia o tanques de producción vía luminometría ATP con la enzima
Introducción
194
luciferín-luciferasa, también llamada bioluminiscencia. La presencia de ATP en una superficie indica bien presencia de microorganismos, bien suciedad orgánica (del propio producto) tras la cual se pueden encontrar latentes microorganismos.
El trabajo presentado en este capítulo se dedica al análisis de superficies por luminometría ATP o bioluminiscencia y especialmente a los datos obtenidos durante todo un año de control con un equipo Biotrace Unilite Xcel portátil.
2 ANÁLISIS DE SUPERFICIES POR LUMINOMETRÍA ATP
Para estudiar las posibles aplicaciones de técnicas estadísticas adecuadas en los datos microbiológicos de carácter rutinario en un laboratorio cervecero, se toman datos correspondientes a un año completo del análisis de superficies realizado sobre tanques de proceso.
En los centros productivos se suelen tener protocolos de limpieza automática de líneas y tanques a través de sistemas CIP (cleaning in place). El control y seguimiento de los sistemas de limpieza se lleva a cabo por la técnica de luminometría ATP.
Cuando se realiza un control de superficies sobre un tanque de proceso, se suele establecer un protocolo de puntos de muestreo donde aparecen suelos, paredes, juntas, grifos, septa, bocas de descarga, etc. Para este estudio nos vamos a centrar en seis puntos muy concretos: grifo, septum, pared, suelo, junta y boca de descarga del tanque. Los datos correspondientes a un año de seguimiento se muestran en la Tabla 4.1.
Introducción
195
Nº tanque Grifo Septum Boca descarga Suelo Pared Junta
1 285 42 31 10 43 40
1 7 54 29 15 41 37
1 135 20 12 18 39 43
1 36 20 18 23 45 40
1 77 49 10 25 38 44
1 110 55 16 19 35 46
1 111 23 15 12 36 45
1 16 15 20 11 32 34
1 18 191 14 10 39 33
1 152 21 9 14 43 37
1 17 23 25 18 24 35
1 46 30 17 19 37 36
1 46 15 16 21 38 43
1 11 18 6 22 40 42
2 30 40 17 31 45 26
2 290 21 26 30 42 15
2 195 23 18 26 48 21
2 88 14 23 28 45 17
2 673 23 21 30 49 24
2 254 26 24 31 51 32
2 249 20 17 29 50 42
2 26 36 16 27 39 17
2 56 19 20 26 38 91
2 10 20 9 29 42 34
2 16 30 16 30 40 26
2 49 39 27 18 41 103
2 565 144 19 28 48 48
2 20 16 11 32 47 34
2 337 24 16 25 40 15
2 13 29 12 29 39 11
2 42 36 13 30 44 15
Análisis de superficies por luminometría ATP
196
2 50 20 12 31 43 28
3 15 23 26 25 32 33
3 27 12 25 22 31 31
3 170 18 15 21 34 14
3 22 14 15 23 29 20
3 27 21 12 24 27 12
3 199 29 25 20 30 18
3 64 39 25 26 29 17
3 7 14 13 22 28 22
3 189 88 31 25 33 16
3 136 31 29 21 34 11
3 495 23 15 24 29 27
3 115 100 30 21 26 19
3 119 45 37 23 25 18
3 25 31 27 22 29 8
3 35 12 12 20 28 19
3 14 8 23 25 30 28
3 73 12 16 23 32 20
3 13 25 17 24 27 25
3 35 6 11 26 26 23
4 58 25 32 35 34 20
4 32 28 26 32 22 25
4 43 33 30 34 20 28
4 235 31 27 33 19 33
4 38 28 12 36 21 35
4 666 54 25 31 24 29
4 36 10 13 29 28 22
4 63 19 15 32 30 21
4 23 25 8 33 26 20
4 426 24 14 30 35 24
4 103 80 40 28 19 28
4 49 158 34 31 20 29
4 54 134 28 32 23 31
Análisis de superficies por luminometría ATP
197
4 27 36 13 34 22 32
4 148 28 16 36 27 41
4 10 16 8 32 19 40
4 34 291 7 30 21 36
4 72 233 9 29 24 38
4 26 33 15 27 29 40
4 17 15 16 29 33 41
5 516 10 27 31 45 32
5 16 14 19 34 39 29
5 658 23 19 31 40 32
5 95 27 11 35 21 28
5 18 17 12 28 43 28
5 56 45 20 30 47 22
5 24 40 35 36 39 31
5 58 82 34 42 38 27
5 93 25 11 40 32 28
5 483 45 15 39 41 43
5 27 30 15 35 40 39
5 12 18 25 38 49 31
5 64 119 12 32 37 23
6 16 9 31 40 39 52
6 636 15 11 39 43 27
6 20 19 22 26 46 13
6 988 58 45 42 42 15
6 177 93 25 43 45 20
6 437 28 14 40 40 13
6 31 53 7 39 39 15
6 50 20 9 35 25 39
6 433 22 20 32 38 15
6 107 56 22 31 43 10
6 24 19 14 36 29 38
6 42 402 33 39 34 12
6 254 35 21 42 33 10
Análisis de superficies por luminometría ATP
198
6 17 25 14 41 30 19
6 50 168 18 39 39 16
6 615 68 25 41 35 16
6 14 27 19 40 41 9
6 12 14 29 37 40 15
6 18 98 11 43 36 17
6 31 29 31 39 34 21
6 8 7 12 38 43 18
6 8 14 11 41 48 14
7 19 96 26 46 29 31
7 140 15 24 49 32 42
7 13 41 21 43 36 29
7 91 10 7 51 31 18
7 39 24 22 35 33 29
7 31 42 28 52 28 23
7 19 17 14 45 37 28
7 37 31 14 54 27 21
7 73 95 30 49 29 21
7 138 70 20 47 30 17
7 16 15 9 41 33 18
7 39 15 13 49 31 32
7 83 157 24 52 30 29
7 83 21 29 50 28 25
7 19 23 13 48 26 28
7 13 13 21 48 24 25
8 313 45 31 29 46 23
8 825 36 68 31 49 43
8 378 165 23 32 33 26
8 55 19 13 28 39 23
8 54 39 22 30 32 50
8 841 46 25 30 38 29
8 11 16 25 27 42 34
8 66 16 15 25 40 29
Análisis de superficies por luminometría ATP
199
8 161 42 25 28 29 31
8 17 109 19 34 26 26
8 52 16 18 33 41 43
8 73 27 19 36 40 25
8 101 24 30 29 38 24
8 95 1702 27 25 39 43
8 36 24 26 28 44 20
8 40 60 11 31 45 27
8 11 30 20 33 41 22
8 493 20 9 34 37 122
8 85 10 15 28 32 57
9 61 12 28 25 17 32
9 785 76 19 30 37 34
9 72 26 12 33 20 57
9 342 65 20 38 17 30
9 23 72 14 40 44 305
9 67 43 20 34 23 48
9 158 15 20 27 28 28
9 39 12 24 26 23 38
9 37 52 18 25 25 56
9 19 18 15 29 20 31
9 43 138 11 33 37 57
9 14 17 12 34 19 26
9 13 16 10 36 18 42
9 19 14 22 37 37 31
10 112 16 20 29 18 23
10 85 75 17 32 42 19
10 69 24 20 38 45 11
10 299 263 16 30 34 24
10 29 17 16 14 39 20
10 30 15 10 24 41 18
10 74 12 19 26 44 28
10 16 90 15 31 50 31
Análisis de superficies por luminometría ATP
200
10 48 22 16 29 48 30
10 42 38 31 28 39 25
10 54 71 27 30 42 34
10 460 35 19 31 33 17
10 18 21 11 25 37 21
10 25 466 20 29 39 20
10 40 23 16 18 46 16
10 55 21 15 22 32 33
10 28 27 14 34 30 30
10 9 54 16 30 45 26
10 38 15 10 15 42 22
10 26 17 10 23 40 18
11 89 27 17 34 22 70
11 49 33 22 46 30 23
11 239 54 21 12 44 21
11 79 41 21 12 44 14
11 21 17 14 41 27 28
11 23 19 19 47 22 32
11 178 40 17 15 13 29
11 434 65 20 7 36 18
11 51 21 28 33 59 21
11 40 60 22 13 28 24
11 37 1147 25 15 29 30
11 89 42 19 22 32 11
11 82 49 23 7 33 29
11 106 80 20 10 36 25
11 157 369 12 32 41 29
12 49 55 57 39 52 33
12 124 21 28 42 45 30
12 29 35 15 19 40 25
12 15 11 11 40 49 29
12 76 204 18 32 32 28
12 50 24 13 38 38 34
Análisis de superficies por luminometría ATP
201
12 66 35 24 35 20 36
12 54 44 20 30 39 30
12 36 22 15 18 35 25
12 200 187 28 34 42 29
12 107 19 16 42 37 40
12 40 90 33 45 44 32
12 16 12 447 39 40 34
12 49 8 12 29 31 42
13 27 31 10 12 39 11
13 115 33 30 8 42 52
13 65 48 13 15 30 49
13 12 11 10 32 28 42
13 49 33 37 14 36 30
13 235 16 16 23 33 25
13 40 18 21 20 40 41
13 22 83 16 25 32 32
13 128 31 18 10 38 36
13 61 81 13 24 45 29
13 22 177 30 30 36 20
13 123 127 12 29 39 43
13 23 17 11 21 20 38
13 41 30 30 23 29 33
13 124 14 7 32 33 36
13 23 14 14 27 18 50
13 18 30 9 9 15 29
14 915 45 109 43 29 9
14 559 84 44 40 31 18
14 60 160 33 37 30 21
14 24 14 22 41 40 12
14 257 30 16 39 32 20
14 43 194 11 30 30 15
14 43 53 24 27 29 14
14 447 46 15 46 15 17
Análisis de superficies por luminometría ATP
202
14 15 874 25 48 33 18
14 58 67 35 42 31 25
14 79 39 18 39 29 20
14 82 44 14 45 29 21
14 36 33 13 34 30 23
14 33 97 7 38 27 17
14 31 14 18 30 26 12
14 241 71 13 37 27 16
15 21 18 20 69 19 32
15 50 40 20 45 7 20
15 122 67 26 32 21 30
15 294 56 15 60 14 24
15 35 18 21 55 17 22
15 44 39 42 40 12 19
15 58 59 31 53 18 26
15 58 40 23 39 32 23
15 90 81 31 61 15 15
15 66 40 23 64 20 31
15 128 41 24 49 13 28
15 132 18 26 59 18 19
15 187 109 25 43 21 18
15 184 74 24 40 16 23
15 34 95 21 51 23 22
15 98 162 8 49 11 19
16 30 55 10 24 43 28
16 41 40 26 23 9 16
16 27 65 31 10 34 20
16 38 27 25 31 40 18
16 103 29 15 28 39 23
16 23 25 18 12 37 25
16 68 45 18 32 30 29
16 130 52 44 28 41 21
16 30 18 26 30 28 18
Análisis de superficies por luminometría ATP
203
16 32 24 13 34 38 22
16 104 26 17 27 39 25
16 45 2717 18 21 42 24
16 25 24 16 26 45 27
16 133 51 40 23 39 23
16 260 213 27 19 33 20
16 65 33 17 29 37 26
16 88 232 40 28 30 31
16 31 32 20 30 41 28
16 28 152 29 34 29 28
16 54 13 33 27 36 25
16 14 127 10 27 32 20
18 722 60 18 65 9 33
18 26 867 20 60 17 20
18 498 38 43 34 21 28
18 53 31 16 50 18 26
18 115 106 291 56 13 31
18 100 39 34 49 19 29
18 222 43 14 38 15 22
18 37 42 24 61 20 29
18 106 156 42 58 22 24
18 26 20 17 59 16 17
18 153 51 43 47 14 27
18 44 122 12 51 18 23
18 86 73 28 50 23 21
18 26 40 17 32 20 29
18 82 595 13 62 12 34
18 12 17 25 57 7 21
18 76 1275 49 53 15 16
18 20 20 35 50 23 18
22 27 13 20 21 43 7
22 218 28 31 12 30 12
22 12 16 18 15 22 14
Análisis de superficies por luminometría ATP
204
22 7 14 7 23 32 8
22 675 19 18 19 31 19
22 61 15 12 18 29 21
22 107 60 17 24 20 9
22 977 18 10 17 21 10
22 17 23 10 17 26 14
22 35 8 6 15 19 11
22 14 12 7 20 24 13
23 977 14 21 9 15 32
23 20 41 18 8 12 20
23 41 26 14 12 19 30
23 26 18 17 10 21 31
23 45 32 14 15 24 28
23 19 11 8 16 16 26
23 65 50 12 11 20 29
23 301 21 14 19 24 21
23 199 32 13 7 21 24
23 514 16 19 18 13 28
23 40 12 17 11 18 32
23 11 20 17 10 23 25
24 24 32 12 34 16 42
24 25 23 20 32 14 31
24 27 27 20 19 8 45
24 23 27 21 29 20 39
25 28 24 21 26 19 33
25 25 30 25 22 13 37
25 126 43 20 28 17 28
25 72 44 14 31 19 31
25 635 33 28 20 11 30
25 15 17 10 26 15 34
25 33 33 13 21 13 29
25 71 23 26 23 11 36
25 364 68 23 27 17 38
Análisis de superficies por luminometría ATP
205
25 42 17 8 30 14 35
26 13 15 17 15 22 25
26 21 17 14 12 20 19
26 35 18 17 17 19 23
26 35 14 14 11 14 24
26 18 17 18 13 21 22
26 13 21 12 21 24 28
26 104 76 10 18 20 25
26 517 18 17 16 16 20
26 50 44 38 20 19 16
26 119 56 20 19 22 21
26 50 22 17 12 17 24
26 23 40 39 14 23 27
26 24 12 13 10 20 26
27 27 35 11 23 53 20
27 32 58 20 20 50 12
27 27 43 14 25 32 18
27 260 23 15 18 49 23
27 65 24 13 12 45 24
27 126 32 22 19 40 20
27 25 15 10 21 32 29
27 40 23 14 20 37 23
27 56 17 20 22 30 17
27 50 33 18 23 35 20
27 44 14 13 18 29 18
27 86 16 16 24 37 21
27 32 12 18 24 41 24
27 17 36 10 22 34 26
27 11 26 13 16 33 20
27 17 34 11 19 38 16
27 227 29 19 21 31 19
27 34 15 19 17 25 21
27 873 138 35 16 28 29
Análisis de superficies por luminometría ATP
206
27 17 11 14 17 21 23
27 9 184 11 16 26 22
28 30 29 23 30 18 16
28 14 18 240 31 24 9
28 21 15 18 29 30 14
28 15 20 15 29 21 15
28 538 21 15 22 22 19
28 16 18 14 30 28 8
28 297 54 24 30 26 14
28 23 24 18 32 20 13
28 93 19 12 34 26 16
28 404 20 15 30 13 15
28 79 79 10 28 28 16
28 82 34 19 19 29 17
28 31 167 19 22 33 23
28 95 206 14 28 20 19
28 115 51 24 31 25 21
28 23 44 14 32 23 17
28 26 8 21 25 28 14
28 17 25 17 36 21 19
29 10 40 55 12 41 41
29 15 25 30 10 24 43
29 11 27 16 15 16 28
29 36 20 18 31 30 37
29 32 22 23 20 23 34
29 136 20 16 17 29 39
29 196 21 18 18 18 29
29 51 60 42 14 27 42
29 16 19 18 26 24 40
29 29 20 13 23 29 33
29 21 59 41 26 23 38
29 81 19 15 16 30 36
29 18 16 13 20 24 122
Análisis de superficies por luminometría ATP
207
29 254 51 22 31 27 30
29 29 65 19 22 29 31
29 18 75 19 19 21 27
29 23 45 12 24 26 34
29 12 13 18 21 34 38
Tabla 4.1 Datos de luminometría ATP de un año completo en
tanques de proceso
En cervecería, se establecen unos valores “frontera” de ATP que marcan el “pasa-no pasa” del tanque a producción. Este valor límite se establece tras estudios comparativos entre datos de luminometría ATP y datos reales de análisis directos (siembra en medios de cultivo adecuados) y en los datos experimentales de la marca del equipo usado (Biotrace Unilite Xcel), y se dispuso dicho valor en 150 RLU (unidades relativas de luz), de tal manera que la autorización de uso de un tanque para producción es encontrar, todos los puntos de muestreo del protocolo, en niveles inferiores a 150 RLU. Todo punto que supere dicho valor será de nuevo sometido a proceso de limpieza y nuevo análisis de superficie hasta que se encuentre por debajo de ese valor.
2.1 Análisis estadístico básico
Si efectuamos un análisis estadístico simple y centrándonos en los puntos “grifo”, “septum” y “boca descarga”, podemos construir una tabla con los datos que superan las 150 RLU y llevar a cabo una primera clasificación por tanque, zona dentro del tanque y nº de análisis efectuados sobre cada tanque. Así, podemos encontrar ya ciertas informaciones interesantes, como:
a) Tanque con más frecuencia de positivos
Análisis de superficies por luminometría ATP
208
b) Zona de los tanques con más frecuencia de positivos
c) Nº análisis realizados en cada tanque
Estos datos se encuentran en la Tabla 4.2. Según los resultados de la Tabla 4.2, los tanques que suelen aparecer con más frecuencia son el 6 y el 18 (9 veces) seguidos de cerca por el 8 y el 14 (8 veces). La zona del tanque que aparece con más frecuencia positiva es sin lugar a dudas el grifo (74 veces) y muy de lejos el septum (31 veces), la boca de descarga no suele dar positiva casi nunca.
Tanque
grif
o
sep
tum
de
scar
ga
Tota
l p
osi
tivo
s
nº
anál
isis
1 2 1 0 3 14
2 7 0 0 7 18
3 4 0 0 4 19
4 3 3 0 6 20
5 3 0 0 3 13
6 7 2 0 9 22
7 0 1 0 1 16
8 6 2 0 8 19
9 3 0 0 3 14
10 2 2 0 4 20
11 4 2 0 6 15
12 1 2 1 4 14
13 1 1 0 2 17
14 5 3 0 8 16
15 3 1 0 4 16
Análisis estadístico básico
209
16 1 4 0 5 21
18 4 4 1 9 18
22 3 0 0 3 11
23 4 0 0 4 12
24 0 0 0 0 4
25 2 0 0 2 10
26 1 0 0 1 13
27 3 1 0 4 21
28 3 2 1 6 18
29 2 0 0 2 18
Tabla 4.2 Datos de luminometría ATP que superan 150 unidades,
ordenados por tanque y zona de tanque
Si realizamos el estudio en porcentajes, ya que no todos los tanques han sido sometidos al mismo número de análisis (es una forma de estandarizar los datos), y los graduamos en color según su porcentaje, obtenemos los datos de la Tabla 4.3.
En ella se observan en color más oscuro aquellos tanques y zonas con mayor porcentaje de RLU>150 en primer análisis.
Así, se puede visualizar rápidamente cuál es el punto de muestreo más conflictivo y si hay algún patrón en los números de tanque o se encuentra repartido de forma aleatoria.
Si realizamos un análisis de comparación de medias de todos los tanques, obtenemos la Figura 4.1.
Análisis estadístico básico
210
Tanque grifo septum descarga
1 14,3 7,1 0,0
2 38,9 0,0 0,0
3 21,1 0,0 0,0
4 15,0 15,0 0,0
5 23,1 0,0 0,0
6 31,8 9,1 0,0
7 0,0 6,3 0,0
8 31,6 10,5 0,0
9 21,4 0,0 0,0
10 10,0 10,0 0,0
11 26,7 13,3 0,0
12 7,1 14,3 7,1
13 5,9 5,9 0,0
14 31,3 18,8 0,0
15 18,8 6,3 0,0
16 4,8 19,0 0,0
18 22,2 22,2 5,6
22 27,3 0,0 0,0
23 33,3 0,0 0,0
24 0,0 0,0 0,0
25 20,0 0,0 0,0
26 7,7 0,0 0,0
27 14,3 4,8 0,0
28 16,7 11,1 5,6
29 11,1 0,0 0,0
Tabla 4.3 Datos de luminometría ATP en porcentajes de positivos,
ordenados por tanque y zona de tanque
Análisis estadístico básico
211
Figura 4.1 Gráfico de cajas y bigotes para Grifo vs nº de tanque
El gráfico de cajas y bigotes es muy ilustrativo en este tipo de comparaciones ya que observamos:
- Datos aberrantes: puntos aislados fuera de las cajas (en nuestro caso no podemos someter estos puntos a ningún tratamiento de aberrantes porque realmente no se tratan de datos aberrantes sino reales.
- La raya vertical en la zona de la caja representa la mediana
- La cruz representa la media aritmética y puede encontrarse dentro o fuera de la caja
123456789
10111213141516182223242526272829
Gráfico Caja y Bigotes
0 200 400 600 800 1000
Grifo
n T
q
Análisis estadístico básico
212
- Caja: son los valores situados entre primer y tercer cuartil (Q1-Q3)
- Bigotes: son los valores que marca el rango (excepto los valores considerados aberrantes, que ya hemos mencionado anteriormente que no lo son porque son datos reales con mayor nivel de RLU)
Con la línea vertical roja marcamos el punto máximo de 150 RLU y observamos que los cuartiles la sobrepasan en los tanques nº 2, 6, 8, 14, 22 y 23, cuyas medias se encuentran también por encima del límite ya que son “arrastradas” por los altos valores de RLU observados en algunos análisis. En cambio sus medianas se encuentran por debajo de dicho límite, siendo un estadístico más robusto que la media al no ser “arrastrada” por los altos valores de RLU.
Si realizamos el mismo gráfico para el caso del septum, obtenemos el gráfico de la Figura 4.2 donde se observa una situación similar al de la Figura 4.1
Análisis estadístico básico
213
Figura 4.2 Gráfico de cajas y bigotes para Septum vs nº de tanque
En este caso no se observa ninguna caja sobrepasando el límite de 150 RLU, sólo excedido por puntos individuales. En este caso, salvo la media del tanque 18, el resto tanto de medias como de medianas se encuentra por debajo del límite. Esto quiere decir que no hay tanta influencia del septum en este análisis como del grifo.
2.2 Estudios quimiométricos
Al igual que realizamos en el capítulo 3, veamos si conseguimos resultados satisfactorios con determinados procedimientos quimiométricos de reconocimiento de pautas (supervisadas o no supervisadas).
123456789
10111213141516182223242526272829
Gráfico Caja y Bigotes
0 0,5 1 1,5 2 2,5 3(X 1000,0)
Septum
n T
q
Análisis estadístico básico
214
2.2.1 Análisis discriminante lineal
El estudio de funciones discriminantes, centrándonos exclusivamente en los tres puntos indicados (grifo, septum y boca descarga) se presenta en el gráfico de la Figura 4.3, donde no se observa discriminación de tanques.
Figura 4.3 Gráfico de funciones discriminantes
La única discriminación es la que se observa entre el gran cúmulo de puntos que se encuentran en la esquina superior izquierda del gráfico y los puntos aislados. El cúmulo corresponde a aquellos análisis donde las RLU eran todas menores de 150 y los
Gráfica de Funciones Discriminantes
-2 1 4 7 10 13
Función 1
-5,2
-3,2
-1,2
0,8
2,8
Fu
nció
n 2
n Tq1
234
567
8910
111213
141516
182223
24
Estudios quimiométricos
215
puntos aislados son los análisis positivos, pero no se observa discriminación por nº de tanque.
Consideremos la posibilidad de tener en cuenta más datos de los análisis de luminometría ATP (suelo, pared y junta) además de los otros tres puntos ya usados.
Figura 4.4 Gráfico de funciones discriminantes con todos los puntos de seguimiento
Si observamos la Figura 4.4, aunque hay una gran maraña de puntos, se pueden adivinar determinadas discriminaciones. En el gráfico sólo se observan 20 tanques de los 25 estudiados por limitaciones del software estadístico, que permite un máximo de 20 factores de clasificación.
Gráfica de Funciones Discriminantes
-4 -2 0 2 4 6 8
Función 1
-4
-2
0
2
4
6
Fu
nció
n 2
n Tq
1
2
34
5
6
7
8
9
10
1112
13
14
15
16
18
22
2324
Estudios quimiométricos
216
Para poder estudiar mejor estas discriminaciones, realicemos divisiones de tanques y, para ello, mejor realizarlas en función del tipo de tanques. Los tanques del 1 al 10 son cilíndricos de fondo plano, del 11 al 18 son cilindro-cónicos y del 22 al 29 son también cilindro-cónicos pero de menor volumen y más modernos de construcción. Consideremos estos tres grupos y veamos sus gráficos de funciones discriminantes.
Figura 4.5 Gráfico de funciones discriminantes de tanques cilindro-
planos
En la Figura 4.5 observamos 10 tanques cilíndricos de fondo plano y se pueden comprobar visualmente diferentes agrupaciones discriminadas. Esto nos puede llevar a pensar que, tratándose de limpiezas automáticas y siempre realizadas con los
Gráfica de Funciones Discriminantes
-6 -4 -2 0 2 4 6
Función 1
-3,5
-1,5
0,5
2,5
4,5
Fu
nció
n 2
n Tq1
234
567
8910
Estudios quimiométricos
217
mismos procedimientos (tiempos, concentraciones, temperaturas, etc.) podría tratarse de alguna forma de “comportamiento” estable en el tiempo con respecto a la limpieza. Es decir, los tanques, a lo largo de sucesivos procesos de limpieza en el tiempo, pueden llevar aparejados comportamientos similares en cuanto a su seguimiento de limpieza de superficies. Así, si observamos el tanque 2, vemos que ocupa una zona del gráfico derecha central (puntos de color rojo), mientras que el tanque 4 ocupa la zona central inferior o el tanque 3 (puntos color verde claro) que se encuentra muy agrupado en la zona inferior central, ligeramente sesgado a la izquierda.
Este estudio, al contrario que el realizado en el capítulo 3 con los distintos tipos de cerveza, no nos va a servir para determinar qué tanque es según los resultados en RLU de los puntos analizados, porque no tiene sentido, pero sí nos sirve para poder determinar comportamientos similares en los procesos de limpieza que nos ayuden a mejorarlos, optimizarlos o modificarlos para conseguir una mayor efectividad.
En la Figura 4.6 se observa el gráfico de funciones discriminantes para tanques cilindro-cónicos, concretamente más antiguos.
No tienen tanta discriminación como el gráfico anterior, probablemente debido por un comportamiento muy similar en el proceso de limpieza. A procesos similares, comportamientos similares. Aún así, hay alguna discriminación concreta, como el tanque 13 (verde claro) y el 14 (naranja). Los tanques 15 (verde oscuro) y 18 (violeta) se encuentran muy solapados.
En este caso, la limpieza es similar prácticamente en toda la batería de tanques cilindro-cónicos.
En la Figura 4.7 podemos ver la última agrupación de tanques, la correspondiente a tanques cilindro-cónicos, de tecnología más moderna. En el gráfico hay un solapamiento superior al de los
Estudios quimiométricos
218
anteriores gráficos y, aunque se observan leves agrupaciones, hay solapamientos importantes en prácticamente todos los tanques de esta batería estudiada.
Figura 4.6 Gráfico de funciones discriminantes de tanques cilindro-cónicos
La nube de puntos es la más concentrada de los tres grupos y la de mayor solapamiento entre tanques, por lo que se puede desprender del estudio una mayor semejanza en los resultados obtenidos con el procedimiento automático de limpieza que en los dos casos anteriores. Esto en parte es debido al diseño de los tanques, más moderno también y a la estructura de líneas de limpieza entre la CIP y los recipientes.
Gráfica de Funciones Discriminantes
-4,1 -2,1 -0,1 1,9 3,9 5,9
Función 1
-5,2
-3,2
-1,2
0,8
2,8
4,8
Fu
nció
n 2
n Tq11121314151618
Estudios quimiométricos
219
Figura 4.7 Gráfico de funciones discriminantes de tanques cilindro-cónicos modernos
2.2.1 Análisis de conglomerados
Veamos ahora si logramos complementar el estudio con un análisis de conglomerados. Para ello, mantenemos los mismos seis puntos estudiados (grifo, septum, boca descarga, junta, pared y suelo).
Al igual que hicimos en el capítulo 3 con los diferentes tipos de cerveza estudiados, aquí vamos a intentar diferenciar los tanques en función de los resultados obtenidos con los bastoncillos y la luminometría ATP. Vamos a realizar también tres estudios en función de los tres grupos de tanques que ya hemos visto.
Gráfica de Funciones Discriminantes
-3,8 -1,8 0,2 2,2 4,2
Función 1
-4,4
-2,4
-0,4
1,6
3,6
Fu
nció
n 2
n Tq2223242526272829
Estudios quimiométricos
220
Figura 4.8 Dendrograma de tanques cilindro-planos
En la Figura 4.8 tenemos el dendrograma de los primeros 10 tanques, cilíndricos de fondo plano. Hemos realizado el análisis buscando 10 conglomerados, correspondientes a los tanques y utilizado el método Ward y métrica de distancia del bloque habitacional que fue la que nos dio los mejores resultados en los diferentes tipos de cerveza.
Como se puede comprobar, no hay una clara diferenciación en los conglomerados, el tanque 10 aparece en varios conglomerados (1, 2, 5 y 6) pero se pueden ver ligeras agrupaciones. Esto confirma lo ya visto en el análisis discriminante lineal.
Estudios quimiométricos
Método de Ward, Bloque HabitacionalDendrograma
0
50
100
150
200
250
300
Di
st
an
ci
a
1 111 1 2 22 22 2 3 3 333 3 44 444 44 55 5 56 666 66 667 7 77 7 888 8 889 99 99
10
10
10
10
10
10
10
221
Figura 4.9 Dendrograma de tanques cilindro-cónicos
En la Figura 4.9 tenemos el segundo grupo de tanques, cilindro-cónicos. Se observa el mismo nivel de agrupamiento que en la anterior, en este caso con 7 conglomerados (7 tanques diferentes).
Estudios quimiométricos
Método de Ward, Bloque HabitacionalDendrograma
0
40
80
120
160
200
Di
st
an
ci
a
11
11
11
11
11
12
12
12
12
12
13
13
13
13
13
13
14
14
14
14
14
15
15
15
15
15
16
16
16
16
16
16
16
18
18
18
18
18
18
222
Método de Ward, Bloque HabitacionalDendrograma
0
30
60
90
120
150
180
Dis
tan
cia
22
22
22
22
23
23
23
23
24
25
25
25
25
26
26
26
26
27
27
27
27
27
27
27
28
28
28
28
28
28
29
29
29
29
29
29
Por último, en la Figura 4.10 tenemos el grupo de los 8 últimos
tanques cilindro-cónicos. Se observa una pequeña agrupación en
el tanque 27, primer conglomerado. El resto se encuentra más
repartido, como también lo confirmaba el análisis discriminante
lineal.
Figura 4.10 Dendrograma de tanques cilindro-cónicos últimos
2.2.2 Análisis factorial
Si realizamos ahora un estudio por análisis de factores, encontramos que las zonas analizadas de los tanques que más
Estudios quimiométricos
223
afectan a los resultados son, según podemos ver en la matriz de cargas antes de rotar (Tabla 4.4) y después de rotar (Tabla 4.5).
Factor 1 Factor 2 Factor 3
Suelo 0,885245 0,388312 1,84433 Pared 0,112308 0,228289 -0,176156 Junta -0,150191 -0,605536 -0,653377 Grifo -23,4505 174,219 -0,291117 Septum 194,371 21,0129 -0,10842 Descarga 0,429751 1,78009 29,1698
Tabla 4.4 Matriz de cargas antes de rotar
Factor 1 Factor 2 Factor 3
Suelo 0,638565 -0,0701469 1,98074 Pared 0,139986 0,255153 -0,10517 Junta -0,0747968 -0,439609 -0,785673 Grifo -19,2927 171,047 35,6801 Septum 193,053 10,4757 29,021 Descarga -3,44353 -4,65962 28,6472
Tabla 4.5 Matriz de cargas después de la rotación
El primer factor está muy influenciado fundamentalmente por el septum y el segundo por el grifo. El resto de zonas no afectan a los factores.
Tras la rotación, que se realiza para simplificar la explicación de los factores, el primero y segundo factor siguen fuertemente
Estudios quimiométricos
224
influenciados por septum y grifo respectivamente y el tercero se reparte entre grifo, septum y descarga.
Una representación gráfica de estos factores sería la Figura 4.11.
Figura 4.11 Gráfico de cargas de factores
El diagrama de dispersión de los puntos frente a estos dos factores se puede ver en la Figura 4.12
Se observa un mayor número de puntos hacia el factor 2, fuertemente influenciado por “grifo”, y algunos puntos en el eje del factor 1, fuertemente influenciado por “septum”.
No se puede conseguir mayor información del análisis factorial ya que el estadístico KMO (Kaiser-Meyer-Olkin) es menor que 0,6 y eso indica que hay mucha varianza común.
SueloParedJunta
Grifo
Septum
Descarga
n Tq
Gráfica de Cargas del Factor
-20 20 60 100 140 180 220
Factor 1
-10
30
70
110
150
190
Facto
r 2
Estudios quimiométricos
225
Figura 4.12 Diagrama de dispersión de los puntos (factor 1 frente a
factor 2)
3 ANÁLISIS MICROBIOLÓGICOS CONVENCIONALES
Dentro del grupo de análisis microbiológicos convencionales, se ha intentado estudiar tanto un análisis estadístico básico como procedimientos quimiométricos más complejos pero la escasez de datos con señalizaciones en los medios de cultivo empleados, ha hecho imposible encontrar ninguna relación entre los grupos estudiados, ya sean tanques de proceso, medios de cultivo, tipos de muestra o incluso fases del proceso, por lo que ha sido imposible presentar datos concluyentes en este aspecto.
Un ejemplo de ello lo tenemos en el siguiente caso a estudiar. Son distintas muestras, analizadas con Nutrient Medium (NM) y
Diagrama de Dispersión
-2 8 18 28 38 48 58(X 10000,0)
Factor 1
0
3
6
9
12
15
18(X 10000,0)
Facto
r 2
Análisis microbiológicos convencionales
226
MRS, correspondientes a distintos tipos de cerveza y en distintos puntos de muestreo (L1 a L6). Las claves de tipos de cerveza son las siguientes
Clave Tipo
1 Pils 5 2 Pils 4,5 3 Pils 5,6 A 4 Cerveza 0,0 5 Pils 5,6 B
En la siguiente tabla, Tabla 4.6, se muestran los datos correspondientes a todas las muestras analizadas. La variable “Tanque” es el tanque de procedencia de la cerveza.
Tanque Punto muestreo NM MRS Tipo cerveza
1 L1 0 0 5
1 L2 0 0 5
1 L3 0 0 5
1 L4 0 27 5
1 L5 0 0 5
1 L6 0 1 5
1 L4 0 40 2
1 L4 0 4 2
1 L4 16 30 1
1 L4 0 0 2
1 L1 0 0 1
1 L4 0 0 3
1 L6 0 0 3
Análisis microbiológicos convencionales
227
2 L1 7 10 2
2 L2 0 0 2
2 L3 0 0 2
2 L4 0 0 2
2 L5 25 30 2
2 L6 0 0 2
2 L6 0 1 5
2 L6 0 0 3
2 L4 0 4 2
2 L1 14 30 1
2 L5 0 50 2
2 L6 0 0 1
2 L5 0 0 5
2 L3 0 0 2
3 L5 0 0 3
3 L1 0 0 3
3 L6 0 25 1
3 L2 0 0 2
3 L3 0 0 3
3 L2 1 1 1
3 L6 0 0 2
3 L2 0 0 1
4 L1 0 0 1
4 L1 30 0 3
4 L4 0 20 2
4 L3 2 35 2
4 L3 0 0 4
4 L2 0 0 1
4 L5 0 0 3
4 L4 0 0 1
4 L3 0 0 1
4 L3 0 12 1
4 L1 0 20 3
Análisis microbiológicos convencionales
228
4 L5 20 18 3
4 L1 0 0 1
5 L1 0 0 1
5 L2 0 0 1
5 L3 0 0 1
5 L4 0 0 1
5 L5 0 0 1
5 L6 0 0 1
5 L3 0 0 3
5 L6 0 15 3
5 L4 0 0 1
5 L5 0 30 1
5 L2 0 30 3
5 L5 0 0 4
5 L3 0 0 3
5 L5 0 1 3
5 L1 0 1 1
5 L3 0 13 5
5 L4 0 0 4
5 L1 0 0 1
6 L1 0 0 2
6 L2 0 0 2
6 L3 32 24 2
6 L4 0 0 2
6 L5 13 8 2
6 L6 0 0 2
6 L2 0 0 1
6 L6 27 40 3
6 L1 0 0 1
6 L5 40 30 1
6 L1 6 7 3
6 L1 0 3 4
6 L3 0 0 1
Análisis microbiológicos convencionales
229
7 L3 0 0 2
7 L4 0 0 2
7 L5 0 0 2
7 L6 0 0 2
7 L2 0 0 2
7 L1 10 8 4
7 L2 2 1 4
7 L3 0 0 4
7 L4 0 0 4
7 L5 0 0 4
7 L6 0 7 4
7 L1 1 25 5
7 L5 0 0 1
7 L2 0 0 2
7 L1 0 0 2
7 L6 0 0 3
7 L4 0 0 2
7 L5 1 20 3
8 L1 0 0 1
8 L2 0 0 1
8 L3 23 0 1
8 L4 24 0 1
8 L5 12 0 1
8 L6 0 0 1
8 L1 0 30 2
8 L2 0 20 2
8 L3 0 25 2
8 L4 0 20 2
8 L5 25 25 2
8 L6 40 30 2
8 L2 0 16 2
8 L3 25 30 1
8 L3 0 0 5
Análisis microbiológicos convencionales
230
8 L1 0 0 3
8 L2 0 0 1
8 L1 0 0 5
8 L3 0 0 3
8 L2 0 0 5
9 L5 30 0 2
9 L4 0 30 2
9 L5 0 0 3
9 L1 0 4 1
9 L1 0 5 2
9 L2 0 20 1
9 L1 0 0 2
9 L3 0 50 2
9 L1 0 0 5
9 L1 0 0 2
9 L5 0 0 3
10 L1 20 25 3
10 L3 0 2 2
10 L4 0 0 3
10 L3 0 6 1
10 L6 0 25 1
10 L3 0 0 3
11 L6 0 30 1
11 L2 0 14 5
11 L3 0 30 2
11 L4 0 0 3
11 L3 0 0 1
11 L5 0 0 5
11 L1 25 0 4
11 L5 40 25 2
11 L1 4 20 1
11 L2 0 0 1
11 L3 0 0 1
Análisis microbiológicos convencionales
231
11 L1 0 0 1
11 L4 0 0 2
12 L2 25 30 1
12 L2 0 7 1
12 L2 0 0 4
13 L1 0 0 1
13 L2 0 0 1
13 L3 0 0 1
13 L4 0 0 1
13 L5 0 0 1
13 L6 0 0 1
13 L2 0 0 3
13 L3 0 30 2
13 L1 0 21 1
13 L2 0 0 1
14 L1 0 0 3
14 L2 0 0 3
14 L3 4 3 3
14 L4 0 0 3
14 L5 0 0 3
14 L6 0 0 3
14 L1 0 0 1
14 L2 0 0 1
14 L3 0 0 1
14 L4 0 0 1
14 L5 0 0 1
14 L6 0 0 1
14 L1 0 0 1
14 L2 1 0 1
14 L3 4 4 1
14 L4 1 4 1
14 L5 0 0 1
14 L6 1 0 1
Análisis microbiológicos convencionales
232
14 L4 0 0 1
14 L3 0 0 2
14 L5 0 0 3
14 L6 0 25 5
14 L2 1 0 2
14 L3 0 0 5
14 L4 0 0 5
15 L1 0 0 2
15 L2 0 1 2
15 L3 0 0 2
15 L4 0 0 2
15 L5 29 0 2
15 L6 0 27 2
15 L1 0 0 3
15 L2 0 0 3
15 L3 0 0 3
15 L4 0 0 3
15 L5 0 0 3
15 L6 0 0 3
15 L1 0 1 1
15 L2 0 3 1
15 L3 0 20 1
15 L4 1 25 1
15 L5 1 20 1
15 L6 0 25 1
15 L1 0 0 1
15 L2 0 0 1
15 L3 0 0 1
15 L4 0 0 1
15 L5 16 25 1
15 L6 0 0 1
15 L5 0 0 4
15 L6 0 0 3
Análisis microbiológicos convencionales
233
15 L2 18 0 2
15 L2 0 50 1
15 L2 0 0 2
15 L3 0 0 2
15 L1 0 0 2
Tabla 4.6 Datos microbiología convencional
Si realizamos análisis discriminante lineal, podríamos intentar encontrar relaciones según factor de clasificación por tanque origen, punto de muestreo o tipo de cerveza.
Figura 4.13 Gráfico de funciones discriminantes clasificando por
Tanque
Gráfica de Funciones Discriminantes
-1 0 1 2 3 4 5
Función 1
-1,2
-0,2
0,8
1,8
2,8
Fu
nció
n 2
Tanque123456789101112131415
Análisis microbiológicos convencionales
234
Por tanque origen, obtendríamos la Figura 4.13, por punto de muestreo, la Figura 4.14 y por tipo de cerveza, la Figura 4.15.
En ninguno de los tres casos (Figuras 4.13, 4.14 y 4.15) se observa una buena discriminación. Basta con comprobar la situación de los centroides de los grupos (señalados con cruces) y veremos que las distancias entre ellos son muy pequeñas y no resuelven bien.
Figura 4.14 Gráfico de funciones discriminantes
En la Figura 4.14, donde se observa una mayor separación entre
centroides de grupo, podríamos llegar a pensar que se pueden
discriminar por tipo de cerveza pero la separación entre
centroides está provocada por la alta dispersión de los puntos en
Gráfica de Funciones Discriminantes
-0,9 0,1 1,1 2,1 3,1 4,1 5,1
Función 1
-2,6
-0,6
1,4
3,4
5,4
Fu
nció
n 2
Punto muestreoL1L2L3L4L5L6
Análisis microbiológicos convencionales
235
cada grupo que, como se observa con claridad en la figura, están
muy dispersos intra-grupos y muy solapados inter-grupos.
Por lo tanto, no podemos concluir que el análisis discriminante
lineal sea una buena técnica o que aporte información relevante
en el caso de análisis microbiológicos convencionales.
Figura 4.15 Gráfico de funciones discriminantes clasificando por
tipo de cerveza
Gráfica de Funciones Discriminantes
-2,3 -1,3 -0,3 0,7 1,7 2,7
Función 1
-0,9
0,1
1,1
2,1
3,1
4,1
Fu
nció
n 2
Tipo12345
Análisis microbiológicos convencionales
236
237
CAPÍTULO 5
Tratamientos cualimétricos de los datos físico-
químicos. Aplicación de la norma ISO 13528 a los
resultados de ensayos de aptitud
238
239
ÍNDICE
RESUMEN
1 INTRODUCCIÓN
2 CONTROL DE CALIDAD INTERNO
2.1 Medidas repetidas o precisión de la repetibilidad
3 CONTROL DE CALIDAD EXTERNO
3.1 Datos de trabajo en ensayos de aptitud externos
3.2 Ensayos de aptitud internos
3.2.1 Puntuaciones de rendimiento o desempeño
3.2.2 Elección de número de muestras replicadas
3.2.3 Interpretación de los resultados de ensayos de
aptitud
3.2.3.1 Histogramas de las puntuaciones
3.2.3.2 Gráfico de barras z-scores
3.2.3.3 Gráficos de control Shewhart
3.2.3.4 Gráfico de control Cusum para z-scores
3.2.3.5 Gráficos de sesgos de laboratorio
estandarizados frente a las medias de
laboratorio
3.2.3.6 Gráfico de puntos
3.2.3.7 Otros gráficos
3.2.4 Puntuaciones combinadas de z-scores
240
241
RESUMEN
Se describen los procesos de evaluación de la calidad de un
laboratorio, tanto internos como externos. En la evaluación
externa se va a hacer hincapié en los estándares internacionales
relacionados con los ensayos de aptitud, coordinados
internacionalmente o dentro de una propia empresa con
diferentes laboratorios.
Se va a describir cómo se establecen los dos estadísticos clave
en un esquema de ensayo de aptitud, el valor asignado y la
desviación estándar de aseguramiento del ensayo.
Se describen las diferentes puntuaciones de desempeño de un
ensayo, cómo se eligen las idóneas y la interpretación gráfica y
numérica de las puntuaciones para comprobar que los datos
experimentales que han emitido los laboratorios estudiados son
correctos o tienen sesgos sistemáticos.
Se comparan las diferencias obtenidas de los datos
experimentales en las puntuaciones de desempeño en función de
los estadísticos clave que se establezcan y cómo pueden variar, así
como las variaciones en función del tipo de puntuación elegida.
Por último, se hablará de las puntuaciones combinadas de
desempeño en varias rondas y de cómo se deben interpretar para
no inducir al error.
242
243
1 INTRODUCCIÓN
En este capítulo vamos a tratar todo lo relacionado con la calidad de las medidas que se producen de forma rutinaria en un laboratorio del sector cervecero pero fundamentalmente centrado en los ensayos de aptitud (Proficiency Testing).
En un laboratorio de control de calidad además de controlar la calidad del producto, se controla la calidad del proceso y la calidad de las medidas analíticas que se obtienen. Para ello, el gestor de laboratorio dispone de muchas herramientas englobadas en dos tipos de control de calidad, el interno y el externo. El primero atiende a aquellos útiles que podemos implantar y hacer seguimiento nosotros mismos y el segundo a aquellos que sólo se pueden utilizar con ayuda externa. Veamos herramientas de ambos casos aplicadas a resultados concretos de laboratorios.
Introducción
244
2 CONTROL DE CALIDAD INTERNO
2.1 Medidas repetidas o precisión de la repetibilidad
Teniendo en cuenta los estadísticos descritos en la introducción de esta Tesis, podemos ver qué ocurre en dos casos concretos de medidas repetidas, aunque se puede aplicar a todos los casos donde existe repetición de la medida. Estos dos casos son el contenido en CO2 y en amargo, dos casos muy propios del laboratorio cervecero y que nos van a dar mucho juego para estudiar sus comportamientos.
Si aplicamos estos estadísticos a los datos de la Tabla 5.1, datos de contenido en CO2 (g/L) de una cerveza, obtenemos los siguientes datos:
CO2-1 CO2-2 5,13 5,12 5,13 0,01 0,24
5,15 5,10 5,13 0,05 1,19
5,10 5,11 5,11 0,01 0,24
5,18 5,19 5,19 0,01 0,24
5,21 5,26 5,24 0,05 1,19
5,20 5,16 5,18 0,04 0,95
5,14 5,16 5,15 0,02 0,48
5,16 5,16 5,16 0,00 0,00
5,13 5,10 5,12 0,03 0,71
5,21 5,21 5,21 0,00 0,00
5,19 5,19 5,19 0,00 0,00
5,22 5,26 5,24 0,04 0,95
5,07 5,14 5,11 0,07 1,67
5,10 5,14 5,12 0,04 0,95
5,23 5,20 5,22 0,03 0,71
Control de calidad interno
245
5,18 5,22 5,20 0,04 0,95
5,19 5,18 5,19 0,01 0,24
5,23 5,20 5,22 0,03 0,71
5,11 5,13 5,12 0,02 0,48
5,16 5,12 5,14 0,04 0,95
5,09 5,13 5,11 0,04 0,95
5,12 5,08 5,10 0,04 0,95
5,15 5,18 5,17 0,03 0,71
5,17 5,18 5,18 0,01 0,24
5,11 5,07 5,09 0,04 0,95
Tabla 5.1 Datos pareados de CO2 para cerveza envasada
Los datos de CO2 son pareados y las restantes columnas son para el valor medio de cada par de datos, es la diferencia en valor absoluto y es esa diferencia dividida por la desviación estándar de la diferencia, que se calcula a partir de un valor de para este parámetro de 0,03 por lo que:
Con estos datos podemos construir el gráfico de las desviaciones frente a las concentraciones (Figura 5.1).
Sobre el gráfico de la Figura 5.1 se han dibujado 3 líneas, la de color marrón es la línea y la de color rojo la . En color verde se ha dibujado la línea correspondiente a la media de . Así podemos saber cuántos puntos se encuentran por encima y por debajo de ella. Es otro control adicional a realizar de forma rutinaria. Si se encuentran más puntos por encima o por debajo de esa línea puede indicarnos un sesgo no aleatorio en las diferencias.
Como se puede observar en la Figura 5.1 no hay puntos anómalos y prácticamente hay el mismo reparto por encima y por debajo de .
Control de calidad interno
246
Figura 5.1 Gráfico de frente a para muestras pareadas de CO2
Veamos ahora otro ejemplo habitual con datos pareados de amargos en la Tabla 5.2.
En este caso, las diferencias son mayores aunque hay que tener en cuenta que la desviación estándar de repetibilidad es mayor, en este caso es 0,28 y, por lo tanto:
La gráfica de diferencias frente a concentración se representa en la Figura 5.2 y también se dibujan las líneas (marrón) y (roja) junto a .
dif
ere
nci
as
Gráfico de diferencias vs concentración
concentración
5,09 5,13 5,17 5,21 5,25
0
0,03
0,06
0,09
0,12
0,15
Control de calidad interno
247
Amargo-1 Amargo-2
23,2 23,4 23,30 0,20 0,51
25,1 24,8 24,95 0,30 0,76
22,3 22,5 22,40 0,20 0,51
23,5 23,3 23,40 0,20 0,51
19,8 19,5 19,65 0,30 0,76
21,9 21,5 21,70 0,40 1,01
23,4 23,5 23,45 0,10 0,25
24,1 23,9 24,00 0,20 0,51
21,9 21,6 21,75 0,30 0,76
23,5 23,4 23,45 0,10 0,25
20,8 20,5 20,65 0,30 0,76
21,9 22,0 21,95 0,10 0,25
20,0 20,0 20,00 0,00 0,00
22,6 22,9 22,75 0,30 0,76
19,6 19,2 19,40 0,40 1,01
20,4 20,2 20,30 0,20 0,51
20,1 20,4 20,25 0,30 0,76
22,4 22,2 22,30 0,20 0,51
23,6 23,4 23,50 0,20 0,51
24,9 24,5 24,70 0,40 1,01
24,2 23,8 24,00 0,40 1,01
23,8 23,9 23,85 0,10 0,25
18,7 18,2 18,45 0,50 1,26
18,2 18,4 18,30 0,20 0,51
22,0 22,4 22,20 0,40 1,01
Tabla 5.2 Datos pareados de amargo para cerveza envasada
Control de calidad interno
248
Figura 5.2 Gráfico de frente a para muestras pareadas de amargo
Aquí también se observa un buen comportamiento de los resultados ya que no se encuentra ninguno fuera de los límites y hay un reparto equivalente a ambos lados de la línea de .
Estudiados los restantes parámetros, no se observan anomalías. Cuando los analistas detectan que las diferencias entre el par de resultados sobrepasan los límites, llevan a cabo un tercer análisis para descartar el resultado anómalo.
concentración media de amargo
dif
ere
nci
as
Gráfico de diferencias de amargo vs concentración
18 20 22 24 26
0
0,3
0,6
0,9
1,2
1,5
Control de calidad interno
249
2.2 Control de la repetibilidad mediante regresión
Otra técnica que puede ser usada es la de representar gráficamente las medidas repetidas una frente a otra, de tal forma que, en condiciones de buena calidad de la medida, obtendríamos un gráfico con una pendiente de 45°. Las desviaciones que se produzcan entre ellas pueden ser visualizadas aplicando una regresión lineal y el estudio de los estadísticos propios de la regresión lineal.
En nuestro caso particular, si tenemos en cuenta los datos de Amargo (Tabla 5.2) podemos obtener el análisis de varianza mostrado en la Tabla 5.3.
Fuente Suma de
Cuadrados Gl Cuadrado
Medio Razón-F Valor-
P
Modelo 87,3199 1 87,3199 1191,38 0,0000 Residuo 1,68574 23 0,0732932 Total (Corr.)
89,0056 24
Tabla 5.3 Tabla de análisis de varianza de la regresión lineal
En la Tabla 5.3 se observa que el P-valor es inferior a 0,05 por lo que no podemos descartar que el modelo sea correcto y se observa una relación estadísticamente significativa entre los dos valores de amargo. Con respecto a los estadísticos habituales de una regresión lineal:
Coeficiente de correlación = 0,990485 R-cuadrada = 98,106% Estadístico Durbin-Watson = 2,01773 (P=0,4941)
Control de calidad interno
250
El estadístico Durbin-Watson nos está indicando que no hay correlación estadísticamente significativa basada en el orden de los datos de los residuos.
El coeficiente de correlación indica una relación relativamente fuerte entre los resultados de cada pareja.
Figura 5.3 Gráfico de la regresión lineal
En la Figura 5.3 se observa que ningún punto queda fuera de la
banda de predicción.
Gráfico del Modelo AjustadoAmargo-1 = 0,377259 + 0,987384*Amargo-2
18 20 22 24 26
Amargo-2
18
20
22
24
26
Am
arg
o-1
Control de calidad interno
251
3 CONTROL DE CALIDAD EXTERNO
3.1 Datos de trabajo en ensayos de aptitud externos
En la gestión diaria de un laboratorio de análisis es extremadamente importante tener confianza en la fiabilidad de las medidas, confianza en los resultados, calidad en las medidas analíticas. Para ello, el laboratorio dispone de evaluaciones de calidad de tipo interna y externa. Dentro de las externas, la más utilizada es la participación en ejercicios de intercomparación o ensayos de aptitud, también llamados vulgarmente “anillos”. Se trata de ejercicios que realizan muchos laboratorios sobre las mismas muestras para comprobar la bondad de sus medidas. En nuestro caso, un coordinador envía muestras de un mismo lote de cerveza a la que se deben realizar varios parámetros analíticos.
La importancia de participar en estos ejercicios es la de conocer nuestra desviación frente al resto de laboratorios participantes y, a través de las puntuaciones de desempeño, conocer el grado de satisfacción de nuestras medidas analíticas en dichos parámetros.
En estos ejercicios de intercomparación o ensayos de aptitud es importante la definición de dos estadísticos considerados clave como el valor asignado ( ) y la desviación estándar del ensayo de aptitud ( ) comúnmente llamada en estos ejercicios SDPA.
Comprobemos un ejemplo real de nuestros resultados en el esquema BAPS de la compañía LGC Standards. Se trata del amargo en una muestra de cerveza de una ronda determinada. Los datos totales de la ronda son los expuestos en la Tabla 5.4.
El valor asignado de la ronda se ha obtenido calculando la mediana de todos los resultados (es un dato de tendencia central más robusto que la media aritmética al obviar los resultados extremos que pueden ser anómalos), que es 12,80.
Control de calidad externo
252
Nº participantes 167 Rango resultados 9,0 a 15,3 Media 12,81 Mediana 12,80 Desviación estándar 0,83 Desviación estándar robusta (s*) 0,60 Valor asignado 12,80
uX 0,10 SDPA 1,00 Rango satisfactorio 10,8 a 14,8 z scores satisfactorios 97,00% z scores cuestionables 2,40% z scores insatisfactorios 0,60%
Tabla 5.4 Datos del esquema BAPS para el parámetro amargo de
una ronda determinada
La , es la incertidumbre del valor asignado (12,80) se ha calculado según:
89
Donde SDPA es la desviación estándar asignada para el ensayo de aptitud, que es 1,0 para este ensayo y es el número de laboratorios participantes (167).
Los 167 resultados pueden analizarse visualmente mostrando un diagrama de frecuencias o histograma (Figura 5.3) y un gráfico de distribución de resultados (Figura 5.4). En ella se representan, ordenados de menor a mayor, todos los resultados de la ronda para ese parámetro.
89
ISO 13528:2005 (2005) Statistical methods for use in proficiency testing by interlaboratory comparisons. International Organization for Standardization, punto 5.6.2
Control de calidad externo
253
En la Figura 5.4 se muestran en color amarillo los z-scores cuestionables ( ) y en color rojo los z-score insatisfactorios (
Figura 5.4 Histograma de z-scores para la ronda
En este tipo de estudios no es conveniente eliminar laboratorios o resultados anómalos ya que son necesarios para explicar el desempeño del laboratorio. Lo que sí se debe hacer es eliminar los resultados de aquellos laboratorios insatisfactorios, pero sólo para el cálculo de los estadísticos clave (valor asignado y SDPA).
En la Figura 5.5 vemos otro gráfico muy usado para este tipo de estudios.
0
5
10
15
20
25
30
35
40
<=-3
,00
-2,7
5 a
-2
,51
-2,2
5 a
-2
,21
-1,7
5 a
-1
,51
-1,2
5 a
-1
,01
-0,7
5 a
-0
,51
-0,2
5 a
0,0
0
0,2
6 a
0,5
0
0,7
6 a
1,0
0
1,2
6 a
1,5
0
1,7
6 a
2,0
0
2,2
6 a
2,5
0
2,7
6 a
2,9
9
Nº
de
re
sult
ado
s
Rango z-score
Histograma de z-scores
Control de calidad externo
254
Se suele realizar cuando existen muchos participantes, para conocer visualmente dónde nos encontramos con respecto al total de participantes.
Con la flecha de color rojo señalamos el punto donde nos
encontramos según el resultado obtenido (12,8), al que le
corresponde un z-score=0,0.
Este gráfico es muy interesante porque, si se tratase de un
parámetro que se analiza por diferentes métodos validados para
el ensayo de aptitud, se pueden marcar con diferentes colores los
resultados de los laboratorios en función del método utilizado
para obtenerlo.
Figura 5.5 Gráfico de distribución para el parámetro amargo en una ronda del esquema BAPS
4
6
8
10
12
14
16
18
20
0 50 100 150
Re
sult
ado
am
argo
(B
U)
Gráfico de distribución
Control de calidad externo
255
Figura 5.6 Gráfico de dispersión de X frente a y su regresión
La participación en un esquema de ensayo de aptitud tiene el fin primordial de corregir los errores analíticos que marque la coordinación del esquema. Por ello, es muy importante la variación en los z-scores de los participantes. Para este fin particular, la coordinación del esquema podría utilizar un gráfico de evolución de z-scores “satisfactorios” durante el esquema, donde se representa el porcentaje de z-scores satisfactorios totales frente a la ronda.
Veamos cómo evoluciona el esquema BAPS, en el que participamos, en el parámetro analítico amargo. Para ello, vamos a estudiar los datos desde la ronda 187 hasta la 261 (75 rondas).
Si dibujamos un gráfico de valor asignado x frente a , obtenemos la Figura 5.6
y = 0,0411x + 0,4602 R² = 0,6878
0
0,5
1
1,5
2
2,5
3
0 10 20 30 40 50
(d
esv
iaci
ón
est
ánd
ar)
X (valor asignado)
Gráfico de X (valor asignado) frente a
Control de calidad externo
256
Observamos una tendencia a aumentar la desviación estándar a medida que aumenta la concentración de amargo según la ecuación de regresión:
Variación cercana a la que marca la EBC como (desviación estándar de repetibilidad) para el método analítico del amargo en Analytica EBC method 9.8:90
Donde m es el valor medido (concentración de amargo). Este valor de la desviación estándar de repetibilidad ha sido obtenido de un ensayo de intercomparación de 13 laboratorios sobre 6 muestras de concentraciones diferentes entre 13,0 y 36,0 BU.
Este gráfico puede ser complementado con la Figura 5.7, donde se representa X, valor asignado, frente al % de z-scores que han salido satisfactorios en cada ronda del esquema estudiado.
De aquí deducimos que, conforme aumenta la concentración del parámetro, disminuye el % de z-scores satisfactorios, es decir muchos participantes pueden estar analizando con sesgos mayores a concentraciones mayores. Esto viene a apoyar la necesidad de utilizar, para este parámetro, una desviación estándar del ensayo (SDPA) en función de la concentración del amargo (valor asignado, X) ya que, de lo contrario, cuando se tengan valores de amargo altos, los z-scores de los participantes empeorarán hasta el punto de que, muchos de ellos, pueden pasar la frontera del satisfactorio al cuestionable o incluso el insatisfactorio.
90
M. Benard (EBC Analysis Committee), J. Inst. Brewing, 2000, 106 (3), 135-138
Control de calidad externo
257
Figura 5.7 Gráfico de distribución de X frente al % de z-scores
satisfactorios en todas las rondas estudiadas
Podemos también comprobar la evolución del porcentaje de los z-scores satisfactorios si los representamos para cada ronda del esquema, como se puede observar en la Figura 5.8.
Hemos dibujado una línea de tendencia, de color verde, que puede ayudarnos a ver cómo evolucionan los z-scores, de forma positiva aunque bastante leve, teniendo en cuenta que estas 75 rondas corresponden a 6 años de esquema.
Se obtienen gráficos inversos pero con la misma suavidad de pendiente para los % de z-scores cuestionables e insatisfactorios.
75
80
85
90
95
100
5 10 15 20 25 30 35
% z
-sco
res
sati
sfac
tori
os
X (valor asignado)
Gráfico distribución de z-scores satisfactorios en el esquema
Control de calidad externo
258
Figura 5.8 Gráfico de la evolución del porcentaje de los z-scores
para el amargo en las rondas del esquema
.
3.2 Ensayos de aptitud internos
Aunque se podría considerar técnicamente como un procedimiento de control de calidad interno de laboratorio, lo englobamos en la parte del control de calidad externo por la facilidad de comprensión una vez conocido el funcionamiento de un ensayo de aptitud.
Cuando una compañía dispone de varios centros productivos con sus correspondientes laboratorios, puede organizar un ensayo de aptitud con todos ellos y comprobar la calidad de las medidas de forma “interna”.
65
70
75
80
85
90
95
100
187 197 207 217 227 237 247 257
% z
-sco
res
sati
sfac
tori
os
Nº ronda del esquema
Evolución % z-scores satisfactorios para amargo
Control de calidad externo
259
Para establecer los estadísticos clave (valor asignado y desviación estándar del ensayo de aptitud) se pueden aplicar los mismos criterios ya comentados en la introducción de esta tesis. Lo habitual es utilizar un valor consensuado por los participantes y basado en la norma ISO 13528:2005.
En este caso, vamos a tratar los datos obtenidos en varios anillos y sobre diferentes parámetros analíticos con un valor asignado equivalente al valor medio de todos los resultados y una desviación estándar del ensayo de aptitud basado en el cálculo según el algoritmo A del anexo C de la norma citada anteriormente.
Para garantizar los datos analíticos utilizados en esta tesis, vamos a basarnos en los mismos parámetros analíticos realizados sobre las muestras control y valoraremos las puntuaciones de desempeño según varios documentos.91-92-93
3.2.1 Puntuaciones de rendimiento o desempeño
Como hemos adelantado en la introducción, se pueden encontrar varias formas de calcular las puntuaciones de rendimiento o de desempeño del ensayo de aptitud. Las más usadas son z-score, z’-score y -score (Zeta-score), en función del conocimiento o no de las incertidumbres de medida, bien del valor asignado, bien del resultado de cada laboratorio con el método usado.
En los tres casos, se establece el desempeño del laboratorio en tres categorías:
91
ISO 13528:2005 (2005) Statistical methods for use in proficiency testing by interlaboratory comparisons. International Organization for Standardization 92
Selection, use and interpretation of Proficiency Testing (PT) schemes, Eurachem, 2nd
ed. 2011 93
M. Thompson, S.L.R. Ellison, R. Wood, Pure Appl. Chem., 78 (1), 2006, 145-196. The International harmonized protocol for the Proficiency Testing of analytical chemistry laboratories (IUPAC technical report).
Control de calidad externo
260
- Satisfactorio: si las medidas efectuadas por el laboratorio se consideran de calidad aceptable.
- Dudoso: si las medidas ofrecen duda razonable o son cuestionables en cuanto a su calidad.
- Insatisfactorio: si las medidas marcan una clara desviación conforme al método y el laboratorio debe realizar acciones correctoras en su proceso analítico.
Estas categorías están definidas según:
Hay otra forma de medir el desempeño de un laboratorio en un ensayo de aptitud, con números En o Ez, donde ya se tienen en cuenta, si se conocen, las incertidumbres expandidas de los laboratorios.
En nuestro caso vamos a trabajar con los z y z’-scores ya que, conociendo el valor asignado y la desviación estándar del ensayo de aptitud, , podemos calcular la incertidumbre del valor asignado, , según la ecuación:94
Donde s* es la desviación estándar del ensayo, , calculada por el algoritmo A del anexo C de la norma anterior (llamada s*) y p es el número de laboratorios participantes en el ensayo.
94
ISO 13528:2005 (2005) Statistical methods for use in proficiency testing by interlaboratory comparisons. International Organization for Standardization, punto 5.6.2
Control de calidad externo
261
El cálculo de z-score y z’-score no difiere entre sí más que suavemente, según:
Y las diferencias obtenidas son pequeñas entre ambas puntuaciones. Veamos un ejemplo real.
Los resultados obtenidos por ocho laboratorios diferentes sobre una misma muestra y utilizando el mismo método de determinación de amargo (EBC 9.8) fueron los mostrados en la Tabla 5.5.
Lab 1 Lab 2 Lab 3 Lab 4 Lab 5 Lab 6 Lab 7 Lab 8
18,2 17,1 18,9 18,2 17,8 18,4 17,4 17,6
18,5 17,1 18,5 18,5 17,7 17,7 17,6 17,2
18,7 17,3 18,4 18,2 18,4 17,7 17,5 17,1
18,7 17,3 18,7 18,1 18,5 17,6 18,0 17,3
Tabla 5.5 Resultados de amargo en 8 laboratorios
Para llevar a cabo un estudio completo, primero establezcamos los estadísticos básicos de estos resultados (Tabla 5.6).
Control de calidad externo
262
Lab 1 Lab 2 Lab 3 Lab 4 Lab 5 Lab 6 Lab 7 Lab 8
18,53 17,20 18,63 18,25 18,10 17,83 17,63 17,30
s 0,24 0,12 0,19 0,17 0,41 0,36 0,26 0,22
Tabla 5.6 Estadísticos básicos de la Tabla 5.4
Aplicando los criterios de cifras significativas marcados por la norma ISO 5725-2: “la media se reporta con una cifra significativa más que las que tienen los valores individuales” (punto 7.2.9) y “la desviación estándar se reporta con una cifra significativa más que los resultados” (punto 7.2.10), se colocan en la tabla con dos decimales.
A estos datos queda añadir los dos estadísticos clave, el valor asignado (en nuestro caso la mediana del grupo, estadístico de medida central más robusto) y la desviación estándar del ensayo de aptitud.
El primero es fácil, la mediana del grupo es:
Para la desviación estándar del ensayo de aptitud, , podemos establecer varios criterios válidos:
- Calcularlo según el algoritmo A del anexo C de la norma ISO 13528
- Usar la desviación de otro ensayo de aptitud externo de confianza.
Según el primer caso, y habiendo tenido en cuenta los datos de amargo de 44 rondas diferentes, hemos calculado un valor promedio de y según otro ensayo de aptitud externo,
Control de calidad externo
263
llamado BAPS y coordinado por la compañía LGC Standards, .
Con estos datos, obtenemos las puntuaciones de desempeño marcadas en la Tabla 5.5.
Como se puede observar, los z-scores obtenidos con la desviación estándar calculada por el algoritmo A son más elevados que los obtenidos con la desviación del esquema BAPS. De ahí la importancia de elegir bien el valor de este estadístico clave, que se encuentra en el denominador de la fórmula de z-score:
Cuanto más alto sea el valor de , más bajo es z-score. En nuestro caso, vamos a seguir con la calculada por el algoritmo A con los datos de este ensayo ya que nos proporciona mayor grado de exigencia en la calidad de la medida y es un grupo de laboratorios eficiente en este análisis.
Lab 1
Lab 2
Lab 3
Lab 4
Lab 5
Lab 6
Lab 7
Lab 8
0,63 -0,70 0,73 0,40 0,20 -0,07 -0,27 -0,60
1,12 -1,25 1,30 0,71 0,36 -0,13 -0,49 -1,07
Tabla 5.7 Puntuaciones de desempeño (z-scores) en función de la
desviación estándar elegida
En la Tabla 5.7 se observan valores z-score “satisfactorios para todos los laboratorios participantes en el ensayo de aptitud. Comprobemos ahora las diferencias que pueden observarse en este mismo ejemplo ya sea usando la puntuación z-score como la
Control de calidad externo
264
z’-score (que tiene en cuenta la incertidumbre de medida del valor asignado.
Lab 1
Lab 2
Lab 3
Lab 4
Lab 5
Lab 6
Lab 7
Lab 8
z-score 1,12 -1,25 1,30 0,71 0,36 -0,13 -0,49 -1,07 z’-score 1,02 -1,14 1,19 0,65 0,33 -0,12 -0,45 -0,98
Tabla 5.8 Puntuaciones de desempeño: z-score y z’-score
Como puede observarse en la Tabla 5.8, las diferencias en los dos casos son pequeñas. Siguiendo el punto 4.2 de la norma ISO 13528 y el apéndice E del documento Eurachem anteriormente citado, la elección de z-score o z’-score se encuentra en función de la diferencia entre y . Si la incertidumbre de medida del valor asignado es demasiado grande en comparación con la desviación estándar del ensayo, hay riesgo de que algunos laboratorios reciban señales de alarma y de acción debido a la inexactitud en la determinación del valor asignado y no porque haya verdaderamente otra causa dentro del propio laboratorio. Por eso es importante establecer el valor de esta incertidumbre y reportarla a los laboratorios participantes en el ensayo de aptitud.
En condiciones normales, la norma establece que la incertidumbre del valor asignado es despreciable y no se debe incluir en la interpretación de los resultados del ensayo de aptitud si:
En el caso que nos ocupa, de análisis del parámetro “amargo” entre 8 laboratorios tras 44 rondas sucesivas, se obtiene, como vimos antes, una y, por lo tanto, una incertidumbre del valor asignado de . Con estos valores, tenemos una
Control de calidad externo
265
incertidumbre mayor que la tercera parte de la desviación estándar del ensayo y podría ser apropiado usar los z’-scores en lugar de los z-scores para evitar el riesgo comentado anteriormente. Pero esta recomendación hay que complementarla con la establecida más adelante en la norma ISO 13528, punto 7.6.1 que marca el uso de z’ cuando, además, el valor asignado no ha sido calculado a partir de los resultados reportados por los laboratorios participantes en el ensayo de aptitud. Como en nuestro caso, el valor asignado es obtenido de los resultados de los participantes, nos mantenemos con el uso de z-scores como puntuación de desempeño más apropiada.
3.2.2 Elección de número de muestras replicadas
Otro punto igualmente importante en el desarrollo de un ensayo de aptitud, es responder correctamente a la pregunta ¿cuántas réplicas de muestra debemos elegir? Para ello, la norma establece en su punto 4.3 las líneas guía para elegir el número de muestras replicadas a realizar en el ensayo. El cálculo de este número se basa en la comparación de los sesgos entre laboratorios y la variación de la repetibilidad, . Si esta variación es demasiado grande comparándola con la desviación estándar del ensayo de aptitud, hay riesgo de que pueda equivocar los resultados del ensayo de aptitud. Podría ocurrir que un laboratorio pueda tener un sesgo alto en una ronda y no tenerlo en la siguiente y se dificulte la investigación de la causa del sesgo.
Para condicionar la influencia de , se puede calcular el número de muestras replicadas, n, según:
Esta se establece previamente al ensayo, para cada parámetro y se puede obtener bien del método oficial (si es que
Control de calidad externo
266
hay y la tiene establecida) bien de un ejercicio interlaboratorio previo.
Se usa aquí también el factor 0,3 para que no contribuya más del 10% de la desviación estándar del ensayo de aptitud.
Evidentemente, este es un criterio de mínimos donde n puede ser cualquier entero superior al obtenido de la fórmula.
Ejemplo: en el caso que nos ocupa, del parámetro amargo, el método EBC 9.8 marca una variación de la repetibilidad de:
Donde m es el valor medio de la medida. Esto suele ocurrir con frecuencia en los métodos analíticos, la variación de la repetibilidad y de la reproducibilidad dependen del intervalo en que se encuentre la medida.
Para nuestro caso, el valor asignado es 17,93 por lo que . Con estos datos, obtenemos es decir, que al
tratarse de 8 laboratorios, debemos realizar cada uno al menos 3 muestras replicadas para que el ensayo de aptitud no se vea afectado por la variación de la repetibilidad del método analítico usado. En los casos estudiados estamos trabajando con 4 muestras replicadas por laboratorio.
3.2.3 Interpretación de los resultados de ensayos de aptitud
3.2.3.1 Histogramas de las puntuaciones
En la Tabla 5.9 se muestran los z-scores de 44 rondas sucesivas de 8 laboratorios para el parámetro “amargo”. El histograma de los resultados es el mostrado en la Figura 5.9.
Control de calidad externo
267
Ronda Lab 1 Lab 2 Lab 3 Lab 4 Lab 5 Lab 6 Lab 7 Lab 8
1 1,12 -1,25 1,30 0,71 0,36 -0,13 -0,49 -1,07
2 -0,22 0,78 0,95 0,89 0,21 -1,01
-1,68
3 0,00 -0,80 -0,12 1,07 0,62 0,21 -1,52
4 -0,37 1,77 2,48 1,49 0,96 -0,40 -1,71 -1,40
5 2,51 0,82 0,58 1,14 -0,43 -1,37 -1,05 -0,56
6 0,45 -1,07 0,83 0,68 0,67 -0,12 -1,20 -1,43
7 0,00 -0,22 0,82 0,71 -0,45 -1,61 -0,09 0,62
8 4,24 -0,98 -2,32 0,94 0,22 -0,37 -0,85 1,43
9
0,46 -0,12 0,51 0,33 -0,99 -1,63 0,46
10 0,72 -0,21 0,10 1,05 1,83 -0,83 -1,72 -0,92
11 0,03 1,10 0,79 -0,42 0,19 -0,17 0,12 -1,53
12
0,67 1,12 -0,15 0,05 0,45 -0,67 -0,76
13 0,29 0,07 0,96 -0,32 0,04 -0,64 -0,42 -1,00
14 1,42 -1,03 0,67 0,52 1,16 -0,54 -1,57 -0,77
15 0,49 0,27 0,31 0,58 0,08 -1,95 0,00 -1,03
16 0,31 -1,87 0,27 0,67 0,09 -1,66 -0,22 -1,92
17 0,72 -0,26 -0,04 -0,21 0,28 -0,86 -0,08
18 -1,47 -0,31 0,56 0,13 0,62 0,62 -0,58 -1,07
19 0,04 0,09 0,21 0,27 0,06 -1,41 0,18 -1,16
20 1,25 1,52 0,98 -0,54 -0,12 -1,07 0,58 -0,98
21 1,03 -0,40 1,25 -0,27 0,32 -1,84 0,27 -1,52
22 0,09 0,09 0,18 0,34 1,07 -0,44 -0,71 -2,10
23 0,85 -0,80 -0,33 -0,10 0,98 -0,45 0,09 0,13
24 1,52 -1,34 0,29 0,62 0,31 -0,68 0,13 -0,98
25 0,63
0,44 -0,17 0,83 -0,66 -1,15 -1,15
26 0,46 -0,76 0,69 -0,09 0,70 -2,10 0,36 -1,07
27 1,61 0,31 0,54 -0,34 0,58 -0,42 -0,09 -1,78
Control de calidad externo
268
28 0,80 1,07 0,58 0,18 0,36 -0,58 -0,04 -1,25
29 0,10 0,38 0,47 0,28 0,12 -1,33 0,03 -2,74
30 1,02 0,09 -0,73 0,22 0,36 -2,23 0,19 1,16
31 -0,12 -0,88 -0,83 -0,26 2,99
0,63 2,33
32 -0,10 0,23 0,94 0,28 -0,14 -3,71 0,50 -0,39
33 0,98 -0,80 0,22 -0,09 0,39 -1,00 -0,21 -0,27
34 1,16 -1,03 0,43 0,53 0,54 -0,84 0,18 -1,56
35 0,18 -0,09 0,36 -0,31 -0,18 -0,83 0,00 -1,38
36 0,54 -1,74 0,43 0,38 -0,40 -0,92 0,45 -0,09
37 -0,19 0,75 0,99 -0,26 0,17 -0,12 -0,86 0,70
38 1,34 -1,34 0,58 -0,26 0,00 -0,56 -0,58 0,40
39 1,39 -1,46 0,28 0,25 0,00 -1,45 -0,35 -0,12
40 -0,36 0,04 0,45 -0,04 -0,18 -1,97 0,25 0,76
41 1,15 -0,05 0,48 -0,59 0,05 -1,18 -0,50 0,84
42 1,59 1,10 -0,02 0,32 -0,46 -0,40 -0,48 0,61
43 0,12 0,39 0,63 0,25 -0,05 -0,72 -1,03 0,30
44 0,85 0,00 0,96 0,69 0,31 -2,13 0,71 -1,56
Tabla 5.9 Puntuaciones de desempeño: z-score para 8 laboratorios
en 44 rondas sucesivas
En la Tabla 5.9 se muestran resaltados en fondo claro aquellos
z-score dudosos o cuestionables (un total de 10) y en fondo rojo los insatisfactorios (2 casos).
En la Figura 5.9 podemos ver representado el diagrama de frecuencias (histograma) del Lab 5. Así podemos comprobar que sus desviaciones en z-score se distribuyen de forma normal y establecer una media de dicha desviación.
Control de calidad externo
269
De la tabla se desprende un promedio de z-score de +0,35 y una distribución normal salvo por el punto dudoso de +2,99.
Figura 5.9 Histograma del desempeño en z-score del Lab 5 sobre el
parámetro amargo.
3.2.3.2 Gráfico de barras z-scores
También podemos representar los diagramas de dispersión por laboratorios en forma de gráfico de barras mostrando las variaciones observadas en el z-score (Figura 5.10). Con un punto se representa la media de cada laboratorio y la barra muestra el mínimo, máximo e intervalo completo de z-score en todas las rondas estudiadas.
Histograma
-0,9 0,1 1,1 2,1 3,1
Lab 5
0
2
4
6
8
10
frecu
en
cia
Control de calidad externo
270
A este gráfico estandarizado por la norma ISO 13528, podemos añadir la media de los valores z-score por laboratorio y nos ofrece la misma información que tres gráficos distintos: gráfico de medias (Figura 5.11), gráfico de desviaciones estándar de z-score (Figura 5.12) y gráfico de intervalos (rangos) de z-score (Figura 5.13).
Del gráfico se desprende que, aunque el laboratorio 2 tiene la mejor media de z-score (más próxima a 0), el laboratorio 4 muestra la variación más pequeña de todo el grupo. Las barras max-min muestran el recorrido del valor z-score para cada laboratorio en las 44 rondas estudiadas. Los laboratorios 2 y 4 son los únicos del grupo estudiado que mantienen sus datos z-score todo el tiempo en la zona llamada “satisfactoria”, el resto ha tenido en algún momento valores de z-score en zonas dudosas (superior o inferior) o en zonas insatisfactorias (superior o inferior).
Figura 5.10 Gráfico de barras de las variaciones z-score por laboratorios sobre el parámetro amargo
-4,00
-2,00
0,00
2,00
4,00
Lab 1 Lab 2 Lab 3 Lab 4 Lab 5 Lab 6 Lab 7 Lab 8
z-sc
ore
Gráfico de barras z-score para amargo
Control de calidad externo
271
Figura 5.11 Gráfico de medias z-score por laboratorios
Figura 5.12 Gráfico de desviaciones estándar de z-score por
laboratorios
Laboratorio
-6
-4
-2
0
2
4
6
z-sc
ore
med
ioGráfico de z-score medio vs Laboratorio
Lab 1 Lab 2 Lab 3 Lab 4 Lab 5 Lab 6 Lab 7 Lab 8
Laboratorio
Gráfico de Desviación estándar vs Laboratorio
0
0,2
0,4
0,6
0,8
1
1,2
Desvia
ció
n e
stá
nd
ar
Lab 1 Lab 2 Lab 3 Lab 4 Lab 5 Lab 6 Lab 7 Lab 8
Control de calidad externo
272
Figura 5.13 Gráfico de rangos de z-score por laboratorios
3.2.3.3 Gráfico de control Shewhart
En estos ejercicios, el gráfico de control es una herramienta muy utilizada por su comprensión visual sencilla. Los límites de control y de acción se establecen según la interpretación de z-score, es decir y
Si dibujamos el gráfico de control del parámetro Amargo para el Lab 5 (Figura 5.14) podremos observar con facilidad cuándo sale de límites un resultado, como en este caso la observación de la ronda nº 31 que entra en la zona insatisfactoria.
Otro detalle que se observa es la tendencia a z-scores positivos antes de la ronda 31, y los negativos posteriores a dicha ronda y hasta el final.
En la Figura 5.15 se pueden observar los datos de Color para el Lab 7 donde se encuentran tres puntos en la zona insatisfactoria y otros tres en la dudosa, además de observar tendencias
Laboratorio
Gráfico de Rango vs Laboratorio
2
3
4
5
6
Ran
go
Lab 1 Lab 2 Lab 3 Lab 4 Lab 5 Lab 6 Lab 7 Lab 8
Control de calidad externo
273
alternantes entre z-scores negativos (se están dando resultados por defecto menores que el valor asignado) entre las rondas 15 y 27 y z-scores positivos (resultados mayores que el valor asignado) desde la ronda 28 hasta la 44. Estas observaciones deben ser suficientes para que el Laboratorio 7 realice operaciones de control sobre su proceso de medida e investigar el origen de dicho sesgo positivo.
Figura 5.14 Gráfico de control de Shewhart de z-score para Lab 5
Este tipo de gráficos es muy utilizado para estudiar puntuaciones de desempeño obtenidas en varias rondas del ensayo de aptitud. Así, se puede visualizar el gráfico de control, como hemos visto en la Figura 5.13 y Figura 5.14, bien para una
0,00
3,00
-3,00
3,00
-3,00
2,00
-2,00
z-sc
ore
Gráfico de control para Amargo Lab 5
0 10 20 30 40 50
Ronda
-6
-3
0
3
6
Control de calidad externo
274
sola característica de la muestra (parámetro Amargo) bien para varias características simultáneamente, como en la Figura 5.16 que controla los parámetros Amargo, CO2, Color y VDK para el laboratorio 5.
Figura 5.15 Gráfico de control de Shewhart de z-score para Lab 6
3.2.3.4 Gráfico de control Cusum para z-score
Este gráfico tiene la potencia de mostrar leves diferencias que a simple vista pueden no observarse. En cambio, tiene una respuesta lenta a cambios significativos. En el caso que nos ocupa, el Lab 4 parece tener el mejor comportamiento alrededor de la línea del cero.
0,00
3,00
-3,00
3,00
-3,00
2,00
-2,00
Gráfico de control para Color Lab 7
0 4 8 12 16 20 24 28 32 36 40 44
Ronda
-7
-5
-3
-1
1
3
5
7
Z
Control de calidad externo
275
Figura 5.16 Gráfico de control de Shewhart de z-score de amargo, CO2, color y VDK para Lab 5
Si observamos la Figura 5.17, vemos que tiene bastantes puntos en el eje x positivo y parecen ser compensadas por el eje x negativo y, aunque hay tres puntos en zona insatisfactoria, el proceso en sus últimas rondas parece estar controlado aunque con sesgo positivo.
Si realizamos el gráfico de sumas acumuladas (Cusum) de este mismo parámetro para el laboratorio 7, obtenemos la Figura 5.18 donde, además de observar el peso de los resultados negativos (mayores que los positivos en valor absoluto), observamos también, gracias a la mascarilla V, la existencia de 5 puntos fuera de control. Control establecido sobre detección de cambio en desviaciones superiores a 3 .
Gráfico X-Y Múltiple
0 10 20 30 40 50
Ronda
-4
-2
0
2
4 VariablesAmargoCO2ColorVDK
Control de calidad externo
276
Figura 5.17 Gráfico de control de Shewhart de z-score en
parámetro Color para Lab 7
3.2.3.5 Gráficos de sesgos de laboratorio estandarizados frente a las medias de laboratorio
Este otro tipo de gráficos nos viene muy bien para comprobar si hay alguna tendencia a tener sesgo en función de la concentración del analito. Al representar gráficamente el z-score frente a la concentración, comprobaremos con facilidad si hay tendencias en función de la concentración.
En la Figura 5.19 podemos observar el comportamiento de este analito en función de la concentración para el Lab 8 donde encontramos en la zona alta de concentración de amargo cierta tendencia a separarse con z-score más altos.
0,00
3,00
-3,00
3,00
-3,00
2,00
-2,00
Gráfico de control para Color Lab 7
0 10 20 30 40 50
Ronda
-7
-5
-3
-1
1
3
5
Z
Control de calidad externo
277
Esto significa que ese laboratorio tiene tendencia a medir por exceso cuando los amargos se encuentran a esos niveles de concentración.
Figura 5.18 Gráfico de control Cusum de z-score para Lab 4
En la Figura 5.20, en cambio, no se observan tendencias, en función de la concentración, de los z-score para el laboratorio 7.
Un ejemplo más claro lo tenemos con los datos mostrados en las Tablas 5.9 y 5.10.
Gráfico CuSum para Color Lab 7
0 10 20 30 40 50
Observación
-30
-20
-10
0
10
20
30
Cu
Su
m
Control de calidad externo
278
Figura 5.19 Gráfico de concentración vs z-score para Lab 8
Figura 5.20 Gráfico de concentración vs z-score para Lab 7
z-s
co
reGráfico de Lab 8 vs concentración
concentración
15 18 21 24 27 30
-4
-2
0
2
4
z-s
co
re
Gráfico de Lab 7 vs concentración
concentración
16 19 22 25 28 31
-4
-2
0
2
4
Control de calidad externo
279
Ronda Lab 1 Lab 2 Lab 3 Lab 4 Lab 5 Lab 6 Lab 7 Lab 8
1 0,77 1,08 -1,50 -1,35 0,50 -0,58 -0,35 2,12
2 2,31 0,08 -0,69 -0,23 -0,50 0,81 -0,73 1,42
3 1,85 -0,27 -0,65 -0,42 -0,35 0,19 -0,04 1,12
4 3,12 0,46 -1,23 0,15 -0,50 0,15 -0,46 1,58
5 2,46 0,46 -0,15 -0,54 -0,15 -0,62 -0,46 0,50
6 2,31 0,73 -1,27 -0,15 -0,46 0,42 0,04 0,27
7 2,92 1,42 -0,85 -0,27 -0,42 0,69 -0,73 0,50
8 1,27 2,19 -0,73 -0,23 -0,35 0,04 -0,27 1,62
9
1,46 -1,62 -0,77 -0,12 0,96 -2,23 0,23
10 -1,08 2,54 -1,00 -0,81 -0,96 1,42 1,54 1,50
11 0,96 -0,46 1,73 -1,19 1,65 -0,38 0,08 -0,77
12 2,58 -1,12 -1,58 -0,15 -0,12 0,92 0,54 -0,12
13 0,88 0,58 -1,04 -0,27 -0,50 0,13 -1,27 0,50
14 2,23 1,81 -0,96 -0,12 -0,62 0,35 0,27 -0,54
15 3,00 -0,12 -0,77 -0,12 -0,35 0,81 -0,88 0,73
16 1,96 1,92 -1,69 -0,85 -0,96 -0,15 0,77 0,23
17 0,35 1,00
1,15 -1,00 0,38 -1,39 -0,42
18 2,42 -0,50 -0,92 -0,15 -0,62 1,23 -1,31 1,42
19 1,69 -0,77 -0,88 -0,50 -1,27 0,35 1,12 1,00
20 -4,04 -0,73 0,77 1,23 0,15 1,23 -1,62 -0,19
21 2,96 -0,88 -0,69 0,23 0,19 0,92 -0,81 1,27
22 3,46 -0,50 -0,77 -0,15 -0,15 0,73 1,92 0,00
23 0,54 0,23 -1,46 0,00 0,38 -0,12 -0,58 0,50
24 1,96 -2,73 -0,92 0,00 0,42 0,73 0,62 -0,77
25 -1,85
-0,31 0,04 0,62 1,35 0,88 -1,27
26 0,85 2,12 -1,62 -0,19 -0,50 0,15 0,15 -0,12
Control de calidad externo
280
27 0,35 -1,31 -1,27 -0,69 0,04 0,35 0,62 0,92
28 3,08 -0,38 -0,65 -0,23 -0,08 1,15 0,38 -0,12
29 3,62 -0,31 0,12 -0,08 0,23 1,85 -0,42 -0,27
30 -3,35 0,31 -0,81 0,12 0,04 0,58 0,12 0,73
31 1,46 -0,04 -0,08 0,00 -0,31
0,54 -0,19
32 0,04 0,50 -0,69 -0,31 -0,46 -0,23 0,73 0,23
33
-0,46 -1,04 -0,12 0,15 0,96 0,77 -0,15
34 -1,27 -0,81 0,04 -0,77 0,31 -0,15 0,62 1,23
35 0,92 0,12 -0,58 -0,81 -0,73 0,42 0,38 -0,04
36 -2,23 -0,19 -0,15 0,27 -0,19 0,54 3,46 0,19
37 1,58 -0,62 -0,65 -0,08 -0,58 0,50 0,04 0,77
38 1,96 0,42 -1,73 -0,38 -0,19 0,04 1,65 -0,27
39 4,31 -1,92 -1,35 0,12 0,38 -0,08 0,00 -0,12
40 2,23 -0,23 -0,50 0,04 0,50 0,31 0,35 -0,15
41 3,77 0,19 -1,12 -0,27 -0,65 0,38 1,42 -0,27
42 0,00 -0,08 -1,27 -0,38 0,19 0,27 -0,88 0,19
43 -2,31 -0,46 -0,27 0,31 -0,15 0,50 2,46 0,65
44 -0,62 -0,92 -0,46 -0,12 0,00 0,42 0,96 0,15
Tabla 5.10 Puntuaciones de desempeño: z-score para 8
laboratorios en 44 rondas sucesivas para el CO2
En la Tabla 5.10 tenemos los datos de z-scores de los mismos 8 laboratorios en 44 rondas sucesivas para el parámetro CO2. A simple vista, sólo se puede observar que el Lab 1 dispone de mayor número de datos cuestionables e insatisfactorios que el resto de laboratorios estudiados.
Control de calidad externo
281
Si ahora cruzamos estos datos con los de la Tabla 5.11 que son las medias de 4 muestras replicadas de cada laboratorio por ronda y los representamos gráficamente, podemos observar con detalle una causa importante que genera las desviaciones.
Ronda Lab 1 Lab 2 Lab 3 Lab 4 Lab 5 Lab 6 Lab 7 Lab 8
1 4,81 4,83 4,66 4,67 4,79 4,72 4,74 4,90
2 5,35 5,21 5,16 5,19 5,17 5,25 5,15 5,29
3 5,25 5,11 5,09 5,10 5,11 5,14 5,13 5,20
4 5,31 5,14 5,03 5,12 5,08 5,12 5,08 5,21
5 5,30 5,17 5,13 5,10 5,13 5,10 5,11 5,17
6 5,30 5,20 5,07 5,14 5,12 5,18 5,15 5,17
7 5,51 5,41 5,26 5,30 5,29 5,36 5,27 5,35
8 5,08 5,14 4,95 4,99 4,98 5,00 4,98 5,11
9 5,40 5,20 5,26 5,30 5,37 5,16 5,32
10 5,30 5,53 5,30 5,31 5,30 5,46 5,47 5,46
11 5,04 4,95 5,09 4,90 5,09 4,96 4,99 4,93
12 5,38 5,14 5,11 5,20 5,20 5,27 5,25 5,20
13 5,02 5,00 4,89 4,94 4,93 4,97 4,88 4,99
14 5,36 5,33 5,15 5,21 5,18 5,24 5,23 5,18
15 5,37 5,17 5,13 5,17 5,15 5,23 5,12 5,22
16 5,03 5,03 4,79 4,85 4,84 4,89 4,95 4,92
17 5,50 5,55 5,56 5,42 5,51 5,39 5,45
18 5,24 5,05 5,03 5,08 5,05 5,17 5,00 5,18
19 5,15 4,99 4,98 5,00 4,95 5,06 5,11 5,10
20 5,17 5,38 5,48 5,51 5,44 5,51 5,33 5,42
21 5,30 5,05 5,07 5,13 5,12 5,17 5,06 5,19
22 5,63 5,37 5,35 5,39 5,39 5,45 5,53 5,40
23 5,06 5,04 4,93 5,03 5,05 5,02 4,99 5,06
24 5,49 5,18 5,30 5,36 5,39 5,41 5,40 5,31
25 5,48 5,58 5,60 5,64 5,68 5,65 5,51
26 5,30 5,38 5,14 5,23 5,21 5,25 5,25 5,23
27 4,98 4,88 4,88 4,92 4,96 4,98 5,00 5,02
Control de calidad externo
282
28 5,35 5,13 5,11 5,14 5,15 5,23 5,18 5,14
29 5,44 5,19 5,21 5,20 5,22 5,33 5,18 5,19
30 4,88 5,12 5,05 5,11 5,10 5,14 5,11 5,15
31 5,20 5,10 5,10 5,10 5,08 5,14 5,09
32 5,03 5,06 4,99 5,01 5,00 5,02 5,08 5,05
33 5,27 5,23 5,29 5,31 5,36 5,35 5,29
34 4,87 4,90 4,96 4,91 4,98 4,95 5,00 5,04
35 5,22 5,16 5,12 5,10 5,11 5,18 5,18 5,15
36 5,31 5,44 5,45 5,47 5,44 5,49 5,68 5,47
37 5,14 5,00 4,99 5,03 5,00 5,07 5,04 5,09
38 5,22 5,12 4,98 5,07 5,08 5,10 5,20 5,08
39 5,38 4,97 5,01 5,10 5,12 5,09 5,10 5,09
40 5,25 5,09 5,07 5,10 5,13 5,12 5,12 5,09
41 5,58 5,35 5,26 5,32 5,29 5,36 5,43 5,32
42 5,15 5,14 5,06 5,12 5,16 5,16 5,09 5,16
43 4,88 5,00 5,01 5,05 5,02 5,06 5,19 5,07
44 5,42 5,40 5,43 5,45 5,46 5,49 5,52 5,47
Tabla 5.11 Medias de los 8 laboratorios en 44 rondas sucesivas
para el parámetro CO2
En la Figura 5.21 se observa el gráfico de dispersión de z-score frente a concentración de CO2 y se puede comprobar cómo hay una clara nube de puntos ascendentes en función de la concentración, salvo algunos puntos aislados.
Esto puede indicarnos con claridad que hay un problema en la aplicación del método analítico en el laboratorio 1 y puede sugerirse con mucha probabilidad que el problema es de ajuste, calibración del equipo de análisis, ya que son equipos que muestran este comportamiento y deriva cuando no se encuentran bien ajustados.
Control de calidad externo
283
Figura 5.21 Gráfico de concentración de CO2 (g/L) vs z-score para
Lab 1
Un caso similar, aunque más suave en la variación en función de la concentración, lo presenta el Lab 6 (Figura 5.22), donde no llega a zona dudosa pero manifiesta una suave relación ascendente con la concentración de CO2.
Si analizamos de forma similar los datos de las Tablas 5.12 y 5.13, correspondientes al análisis de VDK por cromatografía de gases con Espacio de Cabeza y representamos gráficamente la concentración frente a z-score para el laboratorio 5 (Figura 5.23), observamos también algo interesante.
z-s
co
re
concentración (g/L)
Gráfico de z-score vs concentración CO2 para Lab 6
4,7 4,9 5,1 5,3 5,5 5,7
-4
-2
0
2
4
Control de calidad externo
284
Figura 5.22 Gráfico de concentración de CO2 (g/L) vs z-score para
Lab 6
Ronda Lab 1 Lab 2 Lab 3 Lab 4 Lab 5 Lab 6 Lab 7 Lab 8
1 -0,25 0,43 -0,28 0,12 -0,02 -1,50 1,11 0,25
2 -0,71 0,50 1,68 0,07 0,32 -0,14 -0,54 -1,21
3 -1,02 -0,14 0,68 0,05 0,11 1,07 0,39 -0,54
4 -0,95 0,82 0,93 -1,15 -0,86 1,04 -0,61 1,46
5 0,03 -0,09 0,73 -0,51 0,19 1,66 -0,70 -0,52
6 1,18 -0,54 1,43 0,12 0,04 0,18 -1,57 -1,71
7 0,75 0,04 0,04 -0,30 -0,07 1,43 -1,79 0,00
8 0,00 0,43 -1,07 0,18 0,32 -1,48 -0,50 0,00
9 1,08 0,47 -0,03 0,11 -0,42 -0,03 -0,10 -0,60
10 -0,06 0,47 0,47 0,11 0,01 -1,89 0,01 -1,03
concentración
z-s
co
re
Gráfico de z-score vs concentración CO2 para Lab 1
4,8 5 5,2 5,4 5,6 5,8
-4
-2
0
2
4
Control de calidad externo
285
11 -0,32 0,89 -0,04 1,46 0,11 0,00 -0,25 0,11
12 1,02 0,52 -1,34 0,41 -0,30 0,95 -1,09 -2,62
13 0,71 1,00 -0,07 0,86 0,57 -0,25 -0,86 -0,64
14 0,39 0,21 -0,11 0,55 0,07 0,46 -1,36 -2,36
15 0,14 -1,07 0,79 0,79 -0,21 1,50 -1,71 -1,71
16 1,68 -0,96 0,71 0,01 0,07 0,71 -1,43 -1,89
17 0,75 -0,93 -0,32 0,46 0,00 2,18 -0,32 -0,64
18 3,61 -1,14 -0,96 0,57 0,14 -0,32 -0,18 1,07
19 0,71 -0,07 0,57 0,54 -0,82
-0,29 -0,96
20 1,21 -0,86 -0,29 -0,11 -0,18 2,25 1,29 -0,18
21 0,64 -0,93 -1,07 -0,04 0,00 1,39 1,46 -0,96
22 -1,04 0,68 -1,04 -0,61 -0,18 4,39 3,00 2,39
23 2,43 0,79 -0,14 -0,71 -0,93 1,61
0,00
24 1,36 -1,36 -1,54 -1,21 -1,25 1,46 1,54 2,11
25 3,50
-0,93 -1,41 -0,96 2,04 1,36 -0,04
26 1,32 -0,43 -0,29 -0,79 -0,54 1,29 0,54 0,00
27 0,18 -0,04 -0,07 -0,25 -0,41 1,64 0,04 2,18
28 1,43 0,39 -0,75 -0,68 -1,14 4,71 4,07 -0,18
29 0,18 0,39 -0,30 0,04 -0,01 1,29 1,46 -0,86
30 0,98 0,01 -0,38 -0,20 -0,74 2,44 1,05 -0,66
31 0,63 0,02 -0,76 0,04 0,56
0,13 -3,48
32 -0,11 0,71 -0,46 0,36 -0,14 1,43 0,68 -1,61
33 -0,09
-0,72 0,00 -0,04 0,14 0,25 0,00
34 0,64
-0,61 0,00 -0,32 -1,55 1,57 1,25
35 3,25
-1,75 -0,82 -1,57 1,71 0,04 1,39
36 -0,71
-1,32 0,32 -0,64 1,14 1,21 0,25
37 0,25 0,11 -1,79 -0,25 -1,23 1,29 1,64 -1,64
Control de calidad externo
286
38 -0,64 0,21 -0,21 1,46 0,29 4,11 -0,21 -0,50
39 -0,50 0,14 -0,82 1,07 0,71 0,68 -0,64 -0,11
40 0,07 -1,46 0,29 1,04 1,04 -0,61 -0,11 -0,71
41 -0,86 3,96 -1,00 0,29 -0,04 2,32 0,04 -1,18
42 -0,04 1,11 -0,39 0,36 0,64 -0,07 1,36 -1,14
43 -1,64 0,11 -0,07 -0,39 -0,25 0,61 3,39 -0,61
44 0,39 -0,50 -0,21 0,00 0,00 2,64 1,32 -0,82
Tabla 5.12 Puntuaciones de desempeño z-score para 8
laboratorios en 44 rondas sucesivas para VDK
Ronda Lab 1 Lab 2 Lab 3 Lab 4 Lab 5 Lab 6 Lab 7 Lab 8
1 10,75 15,50 10,55 13,33 12,38 2,00 20,25 14,25
2 23,00 31,50 39,75 28,50 30,25 27,00 24,25 19,50
3 20,37 26,50 32,25 27,83 28,25 35,00 30,25 23,75
4 35,37 47,75 48,50 33,98 36,00 49,25 37,75 52,25
5 37,13 36,25 42,00 33,35 38,25 48,50 32,00 33,25
6 46,25 34,25 48,00 38,88 38,25 39,25 27,00 26,00
7 52,25 47,25 47,25 44,93 46,50 57,00 34,50 47,00
8 12,00 15,00 4,50 13,25 14,25 1,66 8,50 12,00
9 27,00 22,75 19,25 20,22 16,50 19,23 18,75 15,25
10 24,50 28,25 28,25 25,73 25,00 11,75 25,00 17,75
11 26,75 35,25 28,75 39,25 29,75 29,00 27,25 29,75
12 56,75 53,25 40,25 52,48 47,50 56,25 42,00 31,25
13 45,00 47,00 39,53 46,01 44,00 38,25 34,00 35,50
14 41,75 40,50 38,25 42,88 39,50 42,25 29,50 22,50
15 61,50 53,00 66,00 66,00 59,00 71,00 48,50 48,50
16 76,75 58,25 70,00 65,10 65,50 70,00 55,00 51,75
17 42,75 31,00 35,25 40,75 37,50 52,75 35,25 33,00
18 80,75 47,50 48,75 59,50 56,50 53,25 54,25 63,00
Control de calidad externo
287
19 55,00 49,50 54,00 53,75 44,28 48,00 43,25
20 52,50 38,00 42,00 43,25 42,75 59,75 53,00 42,75
21 45,50 34,50 33,53 40,75 40,97 50,75 51,25 34,25
22 57,75 69,75 57,75 60,75 63,75 95,75 86,00 81,75
23 80,50 69,00 62,50 58,50 57,00 74,75
63,50
24 93,00 74,00 72,75 75,00 74,75 93,75 94,25 98,25
25 92,00
61,00 57,63 60,75 81,75 77,00 67,25
26 58,25 46,00 47,00 43,50 45,25 58,00 52,75 49,00
27 50,25 48,75 48,50 47,25 46,13 60,50 49,25 64,25
28 75,00 67,75 59,75 60,25 57,00 98,00 93,50 63,75
29 41,25 42,75 37,90 40,25 39,91 49,00 50,25 34,00
30 70,00 63,25 60,50 61,73 58,00 80,25 70,50 58,50
31 56,00 51,75 46,25 51,85 55,50
52,50 27,25
32 28,25 34,00 25,75 31,50 28,00 39,00 33,75 17,75
33 21,40
16,98 22,00 21,75 23,00 23,75 22,00
34 22,00
13,25 17,50 15,25 6,67 28,50 26,25
35 84,25
49,25 55,75 50,50 73,50 61,75 71,25
36 50,00
45,75 57,25 50,50 63,00 63,50 56,75
37 61,75 60,75 47,50 58,25 51,40 69,00 71,50 48,50
38 68,50 74,50 71,50 83,25 75,04 101,75 71,50 69,50
39 44,00 48,50 41,75 55,00 52,50 52,25 43,00 46,75
40 61,50 50,75 63,00 68,25 68,25 56,75 60,25 56,00
41 44,50 78,25 43,50 52,50 50,25 66,75 50,75 42,25
42 40,75 48,75 38,25 43,50 45,50 40,50 50,50 33,00
43 45,50 57,75 56,50 54,25 55,25 61,25 80,75 52,75
44 47,75 41,50 43,50 45,00 45,00 63,50 54,25 39,25
Tabla 5.13 Medias de los 8 laboratorios en 44 rondas sucesivas
para el parámetro VDK.
Control de calidad externo
288
Figura 5.23 Gráfico de concentración de VDK vs z-score para Lab 5
Se puede comprobar fácilmente que a medida que aumenta la concentración, aumenta proporcionalmente la dispersión de z-score, derivado de una relación proporcional entre la concentración y el error analítico.
Si comparamos este gráfico con la Figura 5.24, donde representamos la concentración frente a su desviación estándar, vemos que no se puede realizar una interpretación paralela ya que la nube de dispersión es completamente aleatoria, no sigue un patrón establecido.
Es decir, la información derivada de la Figura 5.20 es más relevante que la que puede obtenerse de la Figura 5.21. De la
concentración VDK
z-s
co
re
Gráfico de z-score vs concentración VDK para Lab 5
0 20 40 60 80
-4
-2
0
2
4
Control de calidad externo
289
primera se puede desprender que z-score es función de la concentración, de la segunda no se puede concretar nada.
Figura 5.24 Gráfico de concentración de VDK vs su desviación
estándar para Lab 5
Para el laboratorio 1, en cambio, se desprende una deriva importante al alza en z-scores a concentraciones mayores (Figura 5.25).
concentración VDK
Desvia
ció
n e
stá
nd
ar
Gráfico de desviación estándar vs concentración VDK para Lab 5
0 20 40 60 80
0
2
4
6
8
10
Control de calidad externo
290
Figura 5.25 Gráfico de concentración de VDK vs z-score para Lab 1
Otro ejemplo equivalente es el que se confirma en el laboratorio 6, con mayor dispersión de puntos, una nube más amplia, pero que también varía proporcionalmente con la concentración del analito (Figura 5.26).
3.2.3.6 Gráfico de puntos
Otra forma de realizar un seguimiento detallado de las desviaciones y que ayuda a enfocar la investigación de sus causas es mediante la realización de un gráfico de puntos. En este gráfico
concentración VDK
z-s
co
re
Gráfico de z-score vs concentración VDK para Lab 1
0 20 40 60 80 100
-4
-2
0
2
4
Control de calidad externo
291
representamos las fechas de las rondas frente a los z-scores individuales de todas las muestras replicadas por un laboratorio. Así, se pueden observar variaciones individuales de los resultados.
Figura 5.26 Gráfico de concentración de VDK -score
para Lab 6
En la Figura 5.27 podemos ver el ejemplo del Lab 5 donde se encuentran representados los 4 valores individuales en puntuación z-score y la línea azul con los puntos representa el z-score medio de cada ronda del ensayo de aptitud.
Con este gráfico conseguimos ver las variaciones reales en z-score de cada muestra replicada por separado y encontrar
concentración VDK
z-s
co
re
Gráfico de z-score vs concentración VDK para Lab 6
0 20 40 60 80 100 120
-4
-2
0
2
4
Control de calidad externo
292
posibles errores de análisis dentro de la misma ronda. La línea que une los puntos medios de cada ronda nos sirve de referencia para comprobar la variación y el recorrido de los z-scores pero en esta ocasión por cada ronda.
Figura 5.27 Gráfico de puntos z-scores individuales para Lab 5
3.2.3.7 Otros gráficos
Hay otros muchos gráficos que pueden dar información adicional a nuestros resultados cualimétricos, como el gráfico de Youden donde se representan los z-scores de dos muestras diferentes y se dibujan unas elipses llamadas de “confianza” alrededor del centro del gráfico. Se representan los puntos de
-4,00
-3,00
-2,00
-1,00
0,00
1,00
2,00
3,00
4,00
0 10 20 30 40 50
z-sc
ore
s in
div
idu
ale
s
Ronda
Gráfico de puntos amargo Lab 5
Control de calidad externo
293
cada laboratorio y se comprueba si salen o no de las elipses de confianza95, dibujadas a 5%, 1% y 0,1%.
Otro gráfico interesante pero difícil de realizar, no se encuentra en ningún paquete de software estadístico por el momento, es el gráfico de las desviaciones estándar de repetibilidad96, en el que el gráfico definido tiene forma de huevo y se representa también con sus tres niveles de confianza (5%, 1% y 0,1%), posteriormente se dibujan los puntos de cada laboratorio, media obtenida frente a desviación estándar y deben caer dentro de la zona dibujada.
3.2.4 Puntuaciones combinadas de z-scores
Muchos autores opinan que no es conveniente ni se debe extraer información de z-scores combinados para establecer una “clasificación” de laboratorios. No es el fin de un ensayo de aptitud que sólo persigue conocer si el laboratorio está midiendo un parámetro analítico con sesgo o no, dentro de las normas marcadas por el proveedor del ensayo.
En todo caso, hay muchos estudios realizados para “comparar” laboratorios haciendo uso de los z-scores combinados.97
Se puede establecer un estadístico resumen para cada laboratorio, conocido como la suma reescalada de z-scores, que se calcula según:
Donde n es el número de resultados del laboratorio para todas las rondas estudiadas y que no hayan sido eliminados.
95
ISO 13528:2005 (2005) Statistical methods for use in proficiency testing by interlaboratory comparisons. International Organization for Standardization, punto 8.5 96
ISO 13528:2005 (2005) Statistical methods for use in proficiency testing by interlaboratory comparisons. International Organization for Standardization, punto 8.6 97
G.E. O’Donnell, D.B. Hibbert, Analyst, 2013, 138, 3673-3678
Control de calidad externo
294
Obtenidos estos valores para los 8 laboratorios que estudiamos en esta Tesis, y que se pueden observar en la Tabla 5.14
Parámetro Lab 1 Lab 2 Lab 3 Lab 4 Lab 5 Lab 6 Lab 7 Lab 8
Amargo 2,17 -0,51 1,48 0,85 1,16 -3,08 -1,16 -1,97
Isoh 2,09 -0,90 -1,62 0,23 1,43 -2,65 0,58
THIAA -1,06 0,22 1,61 0,55 1,34 -0,75 -2,64
ESP -0,24 -1,89 2,00 -0,41 -0,18 2,23 0,34 -1,82
EA -3,98 2,21 -0,67 -1,78 0,68 4,21 0,64 -1,01
Alcohol 1,69 -1,68 1,67 -0,22 -1,17 0,11 0,37 -1,54
CO2 3,81 0,29 -2,54 -0,68 -0,56 1,52 0,60 1,19
Color 1,80 -2,40 -0,57 0,27 -1,56 1,83 -1,06 -0,11
pH 1,12 -1,29 1,78 1,16 -0,51 -2,11 -0,13 -3,72
Turbidez 0,86 -2,16 1,63 1,87 -1,22 0,35 1,55 0,65
Diacetilo 1,48 -2,14 -0,42 1,05 0,21 1,64 2,14 -1,91
VDK 1,63 0,31 -0,97 0,15 -0,61 3,39 1,12 -1,41
SO2 -0,43 1,00 -0,06 -1,87 -0,36 1,85
Polifenoles 0,05 -1,70 1,76 -0,62 3,17 -0,58 0,72 -1,00
Acético -0,09 1,53 0,81 -1,39 -1,48 1,24
TF
2,49 3,31 -0,67 -0,85 -1,01 -1,70 -0,04
Tabla 5.14 Suma reescalada de z-scores, Sz,rs de los 8 laboratorios
en 44 rondas sucesivas para todos los parámetros estudiados
Si representamos gráficamente estos z-scores combinados frente a cada parámetro, podemos visualizar cuáles son los valores combinados más cercanos a cero por parámetro y a qué laboratorio pertenecen.
Control de calidad externo
295
Este gráfico lo podemos ver en la Figura 5.28 a continuación:
Figura 5.28 Gráfico de z-scores combinados por parámetro y
laboratorio
Para ver mejor los resultados más próximos a cero, ya sea positivo o negativo, hemos rellenado los correspondientes a cada parámetro en la propia Tabla 5.12. Así, podemos observar un reparto muy equitativo entre los 8 laboratorios. Por ejemplo, el laboratorio 1 tiene la mejor puntuación z-score combinada en Polifenoles y Acético, el laboratorio 5 en ESP y Diacetilo, el laboratorio 7 en EA y pH.
Como decimos, no es correcto establecer una clasificación de laboratorios en función de las puntuaciones z-scores combinadas pero puede indicar la evolución real dentro del grupo que participa en el ensayo de aptitud.
-5,00
-4,00
-3,00
-2,00
-1,00
0,00
1,00
2,00
3,00
4,00
5,00
Am
argo
Iso
h
THIA
A
ESP
EA
Alc
oh
ol
CO
2
Co
lor
pH
Turb
idez
Dia
ceti
lo
VD
K
SO2
Po
lifen
ole
s
Acé
tico
TF
sum
a re
esc
alad
a d
e z
-sco
res
z-scores combinados
Lab 1
Lab 2
Lab 3
Lab 4
Lab 5
Lab 6
Lab 7
Lab 8
Objetivo
Control de calidad externo
296
Aunque es un estadístico que muestra con mucha sensibilidad los sesgos pequeños, tiene el inconveniente de que un pequeño valor puede estar ocultando en realidad dos valores grandes de z-score de signos opuestos.98 Para evitar este problema, se usa la suma cuadrática de los z-scores, según:
Este estadístico es menos sensible a sesgos pequeños.
Otra forma de puntuar y “clasificar” a los laboratorios participantes, es utilizar un sistema de puntuaciones de penalización en función de las desviaciones producidas en cada resultado sobre el valor asignado y en función de su desviación estándar, sin tener en cuenta las puntuaciones z-scores. Para ello, se establece una puntuación de 0 para todos aquellos valores que se encuentren dentro del intervalo ( - , + ), un valor de 2 para los que se encuentren en los intervalos ( ] y [ ), un valor de 4 para los resultados que se encuentren en los intervalos ( ] y [ ) y un valor de 8 para los que se encuentren en (- y Se trata de una gráfica de zonas, concretamente cuatro zonas diferenciadas en función de la desviación encontrada, según se muestra en la figura 5.29. La zona amarilla tiene un J-score=0; la zona celeste, J-score=2; zona azul, J-score=4; y la zona roja, J-score=8.
Así, se establece una penalización permanente, evitando la pérdida de sesgo debido al cambio de signo del resultado y aquel laboratorio que tenga menos puntos de penalización es, en definitiva, el laboratorio que se acerca de forma más frecuente al valor asignado en el ejercicio.
98
G. E. O’Donnell, D. B. Hibbert, Analyst, 2013, 138, 3673-3678.
Control de calidad externo
297
Los valores y suelen tomarse como el valor asignado, en nuestro caso sería la mediana del grupo y sería la desviación estándar del ejercicio calculada por el algoritmo A (s*). Para aquellos laboratorios que no participen en todas las rondas, se puede establecer un sistema de ponderación multiplicando el resultado por la fracción , donde el numerador representa el número de rondas en el que ha participado el laboratorio y el denominador el número de rondas totales.
Si calculamos este estadístico para el analito “Amargo” en los resultados procedentes de 44 rondas, obtenemos los J-scores:
Lab 1 Lab 2 Lab 3 Lab 4 Lab 5 Lab 6 Lab 7 Lab 8
J-score 34,4 35,2 20 10 20 86 27,4 68,7
De aquí se desprende que:
1. Los laboratorios que menos se desvían en el acumulado son el nº 4 seguido del 3 y el 5 empatados.
2. Los laboratorios que más se desvían en el acumulado son el nº 6 seguido del 8.
Para llevar a cabo una clasificación total, se pueden combinar todos los J-scores y obtener un valor final para cada laboratorio aunque es más conveniente usarlo por analitos. Así, se pueden ver sesgos por analitos que pueden ayudarnos a investigar el origen y establecer correcciones en el método analítico.
Si estos resultados se grafican convenientemente en función de semanas, meses o años, nos puede servir para controlar el proceso analítico y la calidad de nuestras medidas.
Control de calidad externo
298
Figura 5.29 Gráfico de zonas de reparto de J-score
-5
-4
-3
-2
-1
0
1
2
3
4
5
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43
de
svia
ció
n e
stán
dar
Control de calidad externo
299
CAPÍTULO 6
Tratamientos quimiométricos de los resultados de
análisis sensoriales
300
301
ÍNDICE
RESUMEN
1 INTRODUCCIÓN
2 TRATAMIENTO DE DATOS SENSORIALES
2.1. Análisis de componentes principales 2.2. Análisis discriminante lineal 2.3. Cervezas varias de mercado 2.4. Mapa de preferencias
302
303
RESUMEN
En este Capítulo se trabajará con los resultados procedentes de los análisis sensoriales de cervezas.
Se tratarán los resultados sensoriales con las técnicas actualmente más utilizadas en su control y monitorización, que son el análisis de componentes principales, análisis de conglomerados y mapas de preferencia.
En el primer caso, se establecerán relaciones de clasificación entre los diferentes atributos de la cerveza estudiados.
Se trazarán mapas de preferencia sensorial con los productos analizados sensorialmente y se solaparán con gráficos de contorno para visualizar fácilmente las preferencias de los catadores.
304
305
1 INTRODUCCIÓN
El análisis sensorial es de una alta relevancia en la industria alimentaria. Su importancia es tal que, aunque los resultados analíticos y microbiológicos estén en el objetivo de especificaciones, si no tiene un buen resultado sensorial, el producto no sale a mercado.
Esta importancia viene dada por la necesidad de entregar al consumidor final no sólo un producto que cumple con todos los estándares de calidad sino también un producto que le transporte a unos niveles de satisfacción que le hagan recordarlo y hacerse fiel al mismo.
Este análisis es complejo, parte de situaciones arbitrarias y subjetivas. Siempre se ha dicho que “sobre gustos no hay nada escrito” o, en la lengua de Cicerón “De gustibus non disputandum” (aunque parece que la cita es de la edad media y no de Cicerón como se atribuía inicialmente). Ciertamente, el gusto es algo subjetivo pero que no haya nada escrito no es del todo correcto,
Introducción
306
aunque bien sabemos que el refrán se refiere a que no hay ninguna regla, ley o norma, es de las áreas científicas actuales más investigadas y de las que más se ha escrito. Probablemente debido al interés que siempre despierta un nuevo producto alimentario que nos va a producir sensaciones diferentes.
Las técnicas estadísticas usadas en este campo son variadas, desde las básicas pruebas de hipótesis (igual-diferente) hasta las más avanzadas incluyendo análisis de componentes principales, análisis discriminante lineal, conglomerados, regresión multivariante, análisis procrusteano generalizado, mapas de preferencia, etc.99
2 TRATAMIENTO DE DATOS SENSORIALES
Para llevar a cabo este tratamiento, hemos dispuesto de los resultados sensoriales sobre 9 tipos de cerveza diferentes de un panel de 6 catadores expertos.
Los atributos usados para la cata del producto fueron los siguientes:
- Afrutado: en este atributo se incluyen todos aquellos flavores que proceden del proceso fermentativo y, por lo tanto, cualitativamente dependen de la levadura y del control del proceso de fermentación. Entre ellos cabe destacar: acetato de isoamilo (olor a plátano), hexanoato de etilo (olor a manzana roja), butirato de etilo (olor a frutas tropicales), acetato de etilo (olor a pegamento)
- Lúpulo: procedentes de la adición del lúpulo al producto. Incluye: geraniol, lúpulo hervido y aceite de lúpulo.
99
M.C. Meilgaard, G.V. Civille, B.T. Carr en Sensory evaluation techniques, 2007, Ed. CRC Press, 4
th Edition.
Introducción
307
- Cereal: procedentes del cereal usado y del proceso de cocción para la producción del mosto. Incluye: grano, malta, mosto, tostado, caramelo, café.
- Azufrado: procedentes del proceso de fermentación. Unas levaduras producen más azufrados que otras y su reducción posterior también es diferente. Incluye: DMS, sulfítico, H2S, cebolla, levadura, entre otros.
- Oxidación: flavores procedentes de la combinación con oxígeno disuelto durante el proceso o derivado de determinadas reacciones químicas internas que desembocan en productos que producen olores con recuerdo a papel, cuero, avinatado, luz, almendra, etc.
- Amargo: sabor básico, en la cerveza derivado de la liberación de iso- -ácidos del lúpulo o mezcla de lúpulos utilizada.
- Cuerpo: sensación de masticar en boca, procede de los azúcares residuales (no fermentados).
- Astringencia: sensación de raspado en la parte trasera del paladar. Un amargo persistente.
- Carbonatación: sensación de picor en lengua. Procede del nivel de carbonatación del producto.
Se han llevado a cabo catas de 9 cervezas diferentes en un panel de 6 expertos. Los resultados obtenidos por atributos se muestran en la Tabla 6.1
Los valores mostrados son la media del resultado de valores individuales de los atributos para cada uno de los 6 panelistas, que se puntúan de 1 a 5 en números enteros. Como media, y siguiendo la norma ISO 5725, se expresa con un decimal más que los valores originales.
Tratamiento de datos sensoriales
308
Tal y como se observan los datos, es difícil inferir nada de ellos. Como no sabemos si hay posibilidad de clasificación utilizaremos el método del análisis de componentes principales, método quimiométrico de reconocimiento de pautas no supervisado (no se tiene en cuenta si los datos están formados por grupos predefinidos).
Tipo Afr
uta
do
Lúp
ulo
Cer
eal
Azu
frad
o
Oxi
dac
ión
Am
argo
Cu
erp
o
Ast
rin
gen
cia
Car
bo
nat
ació
n
Pils 5,6 A 0,8 0,7 0,0 0,0 2,5 3,0 2,8 2,0 3,0 Pils 5,6 B 3,8 1,0 0,0 0,3 0,0 3,2 2,8 1,2 2,8 Strong A 2,8 1,0 1,2 0,0 0,2 3,2 3,5 0,8 3,0 Cerveza 0,0 2,2 0,3 1,8 0,0 0,0 2,2 1,3 1,0 2,7 Pils 5 2,8 0,8 0,2 0,0 0,0 2,3 2,2 0,8 2,5 Pils 5,6 C 1,2 0,7 0,0 0,2 1,8 3,3 3,0 1,3 3,0 Pils 4,5 A 1,2 0,7 1,7 0,2 0,8 3,3 2,5 1,5 3,0 Pils 4,5 B 2,2 0,5 0,7 0,2 1,7 2,7 2,5 1,0 2,8 Strong B 1,2 0,0 4,3 0,0 0,0 2,7 3,2 1,3 2,7
Tabla 6.1 Resultados promedio de atributos de 9 tipos de cerveza
2.1 Análisis de componentes principales
Haciendo uso del programa estadístico XLSTAT, que funciona como módulo de Microsoft Excel, obtenemos una tabla de valores propios de los 8 factores contenidos en el análisis (uno menos que el número de atributos estudiados) mostrada en la Tabla 6.2
Tratamiento de datos sensoriales
309
Se muestran también los porcentajes de varianza explicados por cada factor y su porcentaje acumulado.
En la Figura 6.1 se observan estos valores propios gráficamente.
Figura 6.1 Valores propios de los factores
F1 F2 F3 F4 F5 F6 F7 F8
V. propio 3,585 2,637 1,285 0,759 0,313 0,300 0,109 0,012 % varianza 39,84 29,30 14,28 8,43 3,48 3,33 1,21 0,14 % acum. 39,84 69,13 83,41 91,84 95,32 98,65 99,86 100,00
Tabla 6.2 Valores propios
En la Tabla 6.3 se muestran los vectores propios de los factores.
F1
F2
F3
F4
F5 F6
F7 F8
0
1
2
3
4
Valores propios
Análisis de componentes principales
310
Los dos primeros factores, donde nos vamos a centrar, explican juntos el 69,13% de la varianza. Observando la Figura 6.2 vemos que el primer y cuarto cuadrante de la circunferencia son los más poblados de atributos, mientras que en el segundo sólo se encuentra el atributo afrutado y en el tercero el atributo cereal.
La longitud de los vectores está relacionada con la importancia que tiene ese atributo en el análisis sensorial. Así, los vectores de mayor longitud son: afrutado, lúpulo, amargo, carbonatación, oxidación y astringencia. Los de menor longitud: azufrado y cuerpo.
F1 F2 F3 F4 F5 F6 F7 F8
Afrutado -0,168 0,562 0,085 0,014 0,020 0,194 0,648 -0,047
Lúpulo 0,228 0,501 -0,098 -0,347 -0,360 0,061 -0,183 0,600
Cereal -0,247 -0,359 0,555 0,186 -0,137 -0,135 0,178 0,620
Azufrado 0,229 0,322 0,031 0,829 0,222 0,063 -0,069 0,139
Oxidación 0,379 -0,234 -0,430 -0,085 0,540 -0,043 0,165 0,423
Amargo 0,476 0,086 0,312 0,099 -0,198 -0,118 -0,399 -0,152
Cuerpo 0,311 0,011 0,596 -0,334 0,445 0,409 0,029 -0,074
Astringencia 0,327 -0,371 -0,163 0,164 -0,488 0,628 0,261 -0,031
Carbonatación 0,483 -0,034 0,101 -0,056 -0,184 -0,599 0,504 -0,162
Tabla 6.3 Vectores propios
Si ahora pasamos a las observaciones, es decir, a los 9 tipos de cerveza diferentes, encontramos las coordenadas mostradas en la Tabla 6.4.
Representadas en un gráfico, como hemos hecho antes con los atributos, se muestran en la Figura 6.3.
Análisis de componentes principales
311
Con la representación superpuesta de las Figuras 6.2 y 6.3 podremos comprobar en qué zonas de atributos se sitúan nuestros tipos de cerveza y poder extraer conclusiones. Esta gráfica superpuesta se muestra en la Figura 6.4
Figura 6.2 Vectores atributos dibujados en los dos primeros factores
Si realizamos una modificación en nuestro estudio evitando el atributo “oxidación”, ya que puede ser generado por una muestra que ha tenido un almacenamiento dudoso o tiene una fecha de envasado lejana, podemos obtener la siguiente Bigráfica (Biplot) sobre las mismas 9 cervezas, esta vez realizado por el programa Statgraphics Centurion XVII (Figura 6.5)
Afrutado
Lupulo
Cereal
Azufrado
Oxidación
Amargo
Cuerpo
Astringencia
Carbonatacion
-1
-0,5
0
0,5
1
-1 -0,5 0 0,5 1
-- e
je F
2 (2
9,3
0 %
) --
>
-- eje F1 (39,84 %) -->
Variables (ejes F1 y F2: 69,13 %)
Análisis de componentes principales
312
De este gráfico podemos interpretar, por ejemplo, que la cerveza tipo Pils 5,6 B es la que tiene más sensación de lúpulo, en la zona del azufrado se encuentra la cerveza tipo Strong A, en la zona de astringencia la tipo Pils 5,6 A, en el cereal la Strong B. Es decir, podemos situar cada tipo de cerveza según su cercanía al correspondiente autovector de atributo. Las otras características de esos tipos de cerveza vendrán dadas por sus proyecciones hacia los restantes autovectores.
F1 F2 F3 F4 F5 F6 F7 F8
Pils 5,6 A 2,389 -1,860 -1,379 -0,806 -0,308 0,659 0,331 0,008
Pils 5,6 B 0,719 2,974 0,451 1,210 -0,207 0,664 0,251 -0,053
Strong A 0,574 1,423 1,599 -1,658 -0,113 -0,554 0,225 0,000
Cerveza 0,0 -3,066 -0,573 -1,094 0,361 -0,513 -0,648 0,279 -0,122
Pils 5 -2,481 1,355 -0,948 -0,888 0,024 0,550 -0,520 0,066
Pils 5,6 C 2,249 -0,249 -0,262 0,147 0,521 -0,325 -0,478 -0,198
Pils 4,5 A 1,423 -0,629 0,319 0,830 -0,841 -0,492 -0,334 0,165
Pils 4,5 B -0,054 0,159 -0,718 0,477 1,163 -0,394 0,264 0,150
Strong B -1,753 -2,599 2,030 0,327 0,272 0,540 -0,016 -0,017
Tabla 6.3 Coordenadas de las observaciones
2.2 Análisis discriminante lineal
Realizando ahora un análisis discriminante lineal (ADL) de estos mismos 9 tipos de cerveza, nos encontramos con la Figura 6.6.
Si nos fijamos en la posición de los centroides, hay buenas separaciones entre todos los tipos. Hay una especial cercanía entre tres tipos: Pils 5,6 A, Pils 5,6 B y Pils 5. A este grupo de tres se acercan dos centroides, uno por debajo que es Pils 5,6 C y otro por encima que es Pils 4,5 B.
Análisis de componentes principales
313
Figura 6.3 Observaciones representadas en los dos ejes principales
Figura 6.4 Biplot con los vectores de 9 atributos y las observaciones
Pils 5,6A
Pils 5,6B
Strong A
Cerveza 0,0
Pils 5
Pils 5,6C Pils 4,5A
Pils 4,5B
Strong B
-4
-3
-2
-1
0
1
2
3
4
-4 -3 -2 -1 0 1 2 3 4
-- e
je F
2 (
29
,30
%)
-->
-- eje F1 (39,84 %) -->
Observaciones (ejes F1 y F2: 69,13 %)
Pils 5,6A
Pils 5,6B
Strong A
Cerveza 0,0
Pils 5
Pils 5,6C
Pils 4,5A
Pils 4,5B
Strong B
Afrutado Lupulo
Cereal
Azufrado
Oxidación
Amargo Cuerpo
Astringencia
Carbonatacion
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
-2 -1,5 -1 -0,5 0 0,5 1 1,5 2
-- e
je F
2 (2
9,3
0 %
) --
>
-- eje F1 (39,84 %) -->
Biplot (ejes F1 y F2: 69,13 %)
Análisis discriminante lineal
314
Si observamos la tabla de coeficientes estandarizados de las funciones discriminantes (Tabla 6.4), podemos ver que hay atributos con coeficientes muy pequeños. Sería posible optimizar la función discriminante eliminando varios atributos, pero en análisis sensorial no tiene sentido ya que el análisis siempre se realiza completo, la optimización no significaría ni mejora en el sistema ni disminución de costes analíticos.
Figura 6.5 Biplot representando los vectores de 8 atributos y las
observaciones realizadas
En la Tabla 6.5 se muestran los coeficientes estandarizados de la función de clasificación.
El análisis discriminante lineal no tiene el mismo uso en análisis sensorial que en análisis químico. Aquí no necesitamos optimizar
Afrutado
Lúpulo
Cereal
Azufrado
AmargoCuerpo
Astringencia
Carbonatación
Pils 5,6 A
Pils 5,6 B
Pils 5,6 C
Pils 5
Cerveza 0,0 Strong A
Strong B
Pils 4,5 A
Bigráfica
-2,9 -1,9 -0,9 0,1 1,1 2,1 3,1
Componente 1
-2,8
-1,8
-0,8
0,2
1,2
2,2
3,2
Co
mp
on
en
te 2
Pils 4,5 B
Análisis discriminante lineal
315
variables, sólo se utiliza para interpretar variaciones sensoriales entre diferentes tipos de cerveza y las dispersiones entre panelistas (distancia entre puntos del mismo tipo).
De la Figura 6,6 podemos deducir que hay una buena discriminación entre los 9 tipos de cerveza estudiados y que hay cierta similitud entre tipos, por ejemplo las Strong se encuentran en la misma zona del gráfico y las Pils 5,6 se encuentran relativamente cerca.
Figura 6.6 Gráfico de funciones discriminantes para 9 tipos de
cerveza
Gráfica de Funciones Discriminantes
-3 0 3 6 9 12
Función 1
-3,7
-1,7
0,3
2,3
4,3
Fu
nció
n 2
CervezaCerveza 0,0Pils 4,5 APils 4,5 BPils 5Pils 5,6 APils 5,6 BPils 5,6 CStrong AStrong B
Análisis discriminante lineal
316
2.3 Cervezas varias de mercado
Realicemos ahora un estudio con cuatro cervezas diferentes de mercado, una Pils 5,6 (tipo Pilsner Lager Especial), una Pils Strong (tipo Pilsner Lager Extra), y las marcas Grafenwalder y Steinburg que se encuentran en algunos supermercados.
Los datos de los principales atributos sensoriales estudiados, se muestran en la Tabla 6.5
Coeficientes 1 2 3 4 5 6 7 8
Afrutado -0,039 -0,050 0,924 0,326 0,286 0,213 0,002 0,243
Lúpulo -0,050 -0,870 0,322 -0,784 0,032 -0,094 0,027 0,112
Cereal 0,997 -0,003 0,171 -0,315 -0,106 0,024 -0,027 -0,030
Azufrado 0,127 0,506 0,091 0,323 -0,914 0,207 0,552 -0,015
Amargo -0,041 -0,302 -0,183 0,468 0,736 0,222 0,439 -0,438
Cuerpo -0,004 -0,443 0,043 0,470 -0,592 -0,415 -0,370 -0,167
Astringencia 0,209 -0,291 -0,269 0,182 0,187 0,071 0,204 0,855
Carbonatación -0,074 -0,187 0,110 0,073 -0,020 0,908 -0,488 0,145
Tabla 6.4 Coeficientes estandarizados de las funciones
discriminantes
Si realizamos un estudio de análisis de componentes principales para intentar buscar pautas, encontramos una diferenciación de los distintos atributos (Figura 6.7) y una clara agrupación de las cervezas en zonas bien diferenciadas.
La cerveza tipo Pils Strong se encuentra en la zona de atributos: cuerpo, cereal, lúpulo, amargo, derivada de su mayor concentración en cereal (es una Lager Extra). La cerveza tipo Pils 5,6 se encuentra en la zona de afrutado, astringencia. La cerveza
Cervezas varias de mercado
317
Grafenwalder se aparta de los ejes: cuerpo, cereal, lúpulo, amargo y se sitúa en la zona dulce, con algo de oxidación. Por último Steinburg se encuentra en la zona dulce con mayor sesgo que Grafenwalder. Es decir, los cuatro tipos de cerveza se alinean en la bigráfica, según atributos, en una zona determinada y distinta entre ellos.
Tipo Afr
uta
do
Lúp
ulo
Cer
eal
Azu
frad
o
Oxi
dac
ión
Otr
os
Du
lce
Am
argo
Cu
erp
o
Ast
rin
gen
cia
Car
bo
nat
ació
n
Pils 5,6 2,67 0,67 0,50 0,00 1,17 0,50 0,00 3,00 2,67 1,33 2,50
Pils 5,6 2,17 0,33 1,00 0,00 1,00 0,33 0,00 3,00 2,50 0,67 2,67
Grafenwal 2,00 1,17 0,83 0,00 1,17 0,17 0,00 2,33 2,33 1,17 2,83
Grafenwal 1,83 0,17 1,33 0,00 1,33 0,33 0,00 2,50 2,33 1,00 2,67
Pils Strong 2,33 1,17 3,50 0,50 0,67 0,50 0,00 3,33 3,50 1,00 2,83
Pils Strong 2,00 0,83 3,33 0,17 0,33 0,00 0,00 3,33 3,50 0,67 2,67
Steinburg 2,33 0,50 0,00 0,67 0,33 0,17 0,17 2,50 2,00 1,17 2,67
Steinburg 2,00 0,00 0,00 0,33 0,67 0,00 0,00 2,33 2,00 0,67 2,67
Tabla 6.5 Resultados de análisis sensorial de 4 diferentes tipos de cerveza de mercado.
Si analizamos los componentes principales, vemos un gráfico de sedimentación (Figura 6.8) con 4 componentes principales que aportan casi toda la información de la varianza.
Cervezas varias de mercado
318
Y en la Tabla 6.6, que corresponde al análisis de componentes principales según cálculo de autovectores, vemos que efectivamente las cuatro primeras componentes principales explican el 99,43% de la varianza producida, aportando la quinta componente muy poca información.
Figura 6.8 Gráfico de sedimentación
Gráfica de Sedimentación
0 2 4 6 8 10 12
Componente
0
1
2
3
4
Eig
en
valo
r
Cervezas varias de mercado
319
Figura 6.9 Bigráfica componentes principales con observaciones.
Componente número Autovalor
Porcentaje de
varianza Porcentaje acumulado
1 3,60472 32,77 32,77 2 2,91464 26,497 59,267 3 2,27313 20,665 79,932 4 1,37471 12,497 92,429 5 0,484722 4,407 96,836 6 0,27244 2,477 99,312 7 0,0756392 0,688 100 8 2,16E-16 0 100 9 1,64E-16 0 100
10 0 0 100 11 0 0 100
Tabla 6.6 Resultados de autovectores y porcentajes de varianza explicada por cada componente principal
Cervezas varias de mercado
320
2.4 Mapa de preferencias
Ahora vamos a ver un tipo de análisis más complejo, que se realiza con una mezcla de análisis de componentes principales y análisis de conglomerados.
Para ello, sometamos al estudio a un grupo de 10 cervezas diferentes, numeradas del 1 al 10, que han sido estudiadas sensorialmente por un panel de expertos, de tal manera que, por un lado, los catadores valoran, de cada tipo de cerveza, un grupo de atributos marcado previamente de 0 a 5 y, por otro lado, valoran las impresiones generales de los diferentes tipos de cerveza.
Afr
uta
do
Lúp
ulo
Cer
eal
Azu
frad
o
Enve
jeci
mie
nto
Def
ect
os
Am
argo
Cu
erp
o
Ast
rin
gen
cia
Car
bo
nat
ació
n
Cerveza 1 1,2 1,1 2,3 1,0 0,2 0,0 3,5 3,3 1,5 3,0 Cerveza 2 1,5 0,8 0,4 0,6 0,4 0,7 3,1 3,0 1,7 3,1 Cerveza 3 2,0 0,6 0,3 0,7 0,9 0,8 3,0 2,9 1,0 2,1 Cerveza 4 1,5 0,4 0,5 1,6 0,9 0,4 2,8 2,5 0,9 2,7 Cerveza 5 1,2 0,7 1,5 0,7 1,0 0,4 3,2 2,5 0,9 2,1 Cerveza 6 2,2 0,7 0,2 0,3 0,2 0,3 2,5 1,9 0,9 2,8 Cerveza 7 1,1 0,3 0,4 0,4 0,4 0,6 2,0 1,6 1,2 2,0 Cerveza 8 1,0 0,2 0,4 0,3 0,9 0,8 2,2 1,4 1,0 1,9 Cerveza 9 1,2 0,4 0,5 1,1 0,6 0,4 2,5 1,5 1,5 2,4 Cerveza 10 1,2 1,4 0,7 1,0 0,5 1,0 3,7 1,8 2,0 2,0
Tabla 6.7 Tabla de valoración de atributos agrupados
Mapa de preferencias
321
Estas dos tablas conjuntadas (Tabla 6.7 y Tabla 6.8), son el origen de datos para establecer el mapa de preferencias.
Cat
ado
r
Cer
veza
1
Cer
veza
2
Cer
veza
3
Cer
veza
4
Cer
veza
5
Cer
veza
6
Cer
veza
7
Cer
veza
8
Cer
veza
9
Cer
veza
10
1 7 6 5 6 7 7 6 4 6 4 2 8 5 6 7 6 7 6 3 6 5 3 8 7 6 6 6 8 5 5 7 7 4 9 7 7 7 7 7 6 5 6 6 5 8 6 7 7 5 6 4 4 5 7 6 8 7 8 6 7 7 4 5 6 5 7 7 7 6 5 6 6 6 6 6 7 8 6 8 8 6 7 7 7 5 5 6 9 8 7 8 6 6 6 5 5 5 5
10 7 8 7 6 6 5 6 5 6 6 11 8 7 7 7 6 6 5 4 6 7 12 7 7 6 7 7 5 4 5 7 7 13 8 8 5 6 6 6 5 6 5 6 14 8 7 7 5 5 6 3 6 7 7 15 8 6 7 6 4 6 5 5 6 6 16 8 7 8 6 7 7 4 4 4 5 17 7 8 6 7 6 6 5 5 5 8 18 8 7 5 7 5 7 6 5 6 7 19 8 7 6 6 6 6 6 6 5 7 20 8 6 7 5 5 7 7 4 5 6 21 9 7 7 7 6 7 4 3 6 7 22 9 8 7 6 6 8 5 6 5 5 23 8 7 8 6 6 7 4 5 4 6 24 7 7 8 7 6 6 3 5 6 5
Tabla 6.8 Tabla de valoración de la impresión general
Mapa de preferencias
322
Los resultados obtenidos en la Tabla 6.7, provienen de la media de los resultados individuales de 24 catadores, valorados de 0 a 5. Los resultados obtenidos en la Tabla 6.8 proceden de la “impresión general” que cada uno de los 24 catadores valoran sobre cada cerveza de 1 a 9.
Figura 6.10 Mapa de preferencias de 10 diferentes tipos de cerveza
Con estas dos tablas, se realiza en primer lugar un análisis de componentes principales, en esta ocasión con ayuda del programa estadístico XLStat, complemento de la hoja de cálculo Microsoft Excel.
Cerveza 1
Cerveza 2
Cerveza 3 Cerveza 4
Cerveza 5
Cerveza 6
Cerveza 7
Cerveza 8
Cerveza 9
Cerveza 10
Cluster1
Cluster2
Cluster3
Cluster4
Cluster5
Cluster6
Cluster7 Cluster8
Cluster9
-1
-0,8
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
-1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1 1,2 1,4 F2
F1
Mapa de preferencias
Mapa de preferencias
323
El análisis de componentes principales (ACP) produce una matriz de cargas factoriales que, junto a los centroides de las clases obtenidos en el análisis de conglomerados, resultan en un mapa de preferencias (Figura 6.10).
Al mismo tiempo, con el programa XLStat se obtiene un gráfico de contorno, Figura 6.11 que muestra las preferencias, en márgenes de porcentajes, de los catadores.
Figura 6.11 Gráfico de contorno
Si solapamos la Figura 6.10 con la Figura 6.11 podemos obtener un gráfico combinado con las cervezas situadas en los contornos.
Series1
Series8
Series15
Series22
Series29
Series36
Series43
Series50
Series57
Series64
Series71
Series78
Series85
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97
F2
F1
Gráfico de contorno
80%-100%
60%-80%
40%-60%
20%-40%
0%-20%
Mapa de preferencias
324
Series1
Series7
Series13
Series19
Series25
Series31
Series37
Series43
Series49
Series55
Series61
Series67
Series73
Series79
Series85
Series91
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97
80%-100%
60%-80%
40%-60%
20%-40%
0%-20%
Cerveza 1
Cerveza 2
Cerveza 3 Cerveza 4
Cerveza 5
Cerveza 6
Cerveza 7
Cerveza 8
Cerveza 9
Cerveza 10
Cluster1
Cluster2
Cluster3
Cluster4
Cluster5
Cluster6
Cluster7 Cluster8
Cluster9
-1
-0,8
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
-1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1 1,2 1,4 F2
F1
Mapa de preferencias
Figura 6.12 Gráfico de contorno con preferencias
En la Figura 6.12 podemos observar fácilmente cómo las cervezas 1 y 5 son las preferidas por los catadores, frente a las cervezas 2, 7 y 9 que son las menos preferidas.
En general, el panel de catadores ha preferido como mejor una cerveza tipo Strong Lager, una tipo Pils 5,6 y otra Pils 4,5 (números 1, 5 y 10) y ha valorado más bajo las Pils Lager “marca blanca” de determinadas grandes superficies (números 2, 3, 4, 7 y 9), dejando en zona intermedia cervezas tipo Pils 5.
Mapa de preferencias
325
CONCLUSIONES
326
327
CONCLUSIONES
Teniendo en cuenta los resultados obtenidos en la presente tesis, podemos concluir:
1. La técnica estadística multivariante conocida como análisis discriminante lineal (ADL) se manifiesta como una buena herramienta para, a partir de determinados datos físico-químicos de la cerveza, discriminar entre distintos tipos de cerveza. Se ha podido discriminar el tipo de cerveza en un grupo total de 12 tipos diferentes (Cerveza 0.0, Cerveza Sin, Pils 4.5A, Pils 4.5B, Pils 5, Pils 5.6A, Pils 5.6B, Pils 5.6C, Pils Strong A, Pils Strong B, Shandy A y Shandy B) con un 100% de aciertos sobre 12 muestras sin identificar (cada una de ellas correspondiente a un tipo diferente).
2. Se ha optimizado, mediante el uso del análisis discriminante lineal (ADL), el número de análisis a realizar sobre una muestra sin identificar de 15 parámetros analíticos iniciales a sólo 3 (ESP, Amargo y Turbidez).
328
3. El análisis discriminante lineal (ADL) es también una potente herramienta para discriminar entre fábricas que producen un mismo tipo de cerveza. Se ha podido discriminar con un 100% de aciertos una cerveza sin identificar tipo Pils 4,6 entre cuatro fábricas diferentes que la producen. Esta particularidad es especialmente importante si se trata de homogeneizar producciones en diferentes fábricas. Se ha realizado un control de 10 análisis de cervezas procedentes de cada fábrica (40 análisis en total) y se ha obtenido un 100% de aciertos.
4. La técnica de análisis de conglomerados (cluster analysis) es una buena técnica clasificatoria en los casos anteriores aunque demuestra menos potencia. Se pueden agrupar en conglomerados independientes las diferentes cervezas de los grupos analizados y en el caso completo (12 tipos diferentes), con algo menos de potencia, pero también discrimina prácticamente los 12 tipos salvo algunos solapamientos entre Pils 5,6A y Pils 5,6B.
5. El análisis discriminante lineal (ADL) es una buena herramienta para determinar pautas “dirigidas” de limpieza automática de superficies destinadas a la industria alimentaria. No así el análisis de conglomerados. Hemos logrado encontrar discriminaciones en los 25 tanques analizados, usando los puntos de muestreo: grifo, septum, pared, suelo, boca descarga y junta. La discriminación en el caso de tanques cilíndricos de fondo plano es mayor que en los restantes casos de tanques cilindro-cónicos, por lo que se puede deducir que la limpieza automática en el primer caso deja más diferencias entre tanques que en los casos restantes. Es probable que parte de los muchos positivos en estos 10 primeros tanques proceda de esas diferencias en la limpieza, derivado del diseño de las instalaciones y aunque no se puede deducir de esto con claridad qué tanques se
329
limpian mejor, sí se puede utilizar el análisis para conocer la homogeneidad de los programas de limpieza automáticos.
6. La escasez de señalización en los análisis microbiológicos convencionales hace imposible el uso de cualquier técnica estadística conocida para establecer criterios de clasificación u otro tipo de pautas. Son muy pocos los resultados microbiológicos con señalización y no se pueden conseguir agrupaciones en función de la muestra, medio de cultivo, fase de proceso, incluso fecha.
7. Las técnicas de análisis discriminante lineal (ADL), el análisis de componentes principales (ACP) y los mapas de preferencia son herramientas estadísticas que obtienen información relevante de datos sensoriales en las cervezas estudiadas, encuadrándolas en grupos de atributos según el tipo de cerveza.
330
331
332
333
334