Estadística Multivariante

8
Estadística Multivariante 2.1 Introducción La efectividad de las mediciones data-driven dependen de la caracterización de las variaciones de los datos del proceso. Existen dos tipos de variaciones en los datos de procesos: causas comunes y causas especiales. Las variaciones por causas comunes son las debidas enteramente a ruidos aleatorios (por ejemplo, el asociado a lecturas de sensores), mientras que las variaciones por causas especiales se cuentan como variaciones no atribuidas a causas comunes. Estrategias de control de procesos estándar pueden ser capaces de remover la mayoría de las variaciones por causas especiales, pero dichas estrategias no pueden remover las variaciones por causas comunes, que son inherentes a los datos del proceso. Ya que las variaciones en los datos del proceso son inevitables, teoría estadística juega un papel importante en la mayoría de esquemas de monitoreo de procesos. La aplicación de teoría estadística al monitoreo de procesos se basa en la suposición que las características de las variaciones en los datos son relativamente incambiables a menos que una falla ocurra en el sistema. Mediante la definición de una falla como una condición anormal del proceso, es una suposición razonable. Esto implica que las propiedades de las variaciones de los datos, tales como la media y la varianza, son repetibles para las mimas condiciones de operación, aunque los valores actuales de los

Transcript of Estadística Multivariante

Page 1: Estadística Multivariante

Estadística Multivariante

2.1 Introducción

La efectividad de las mediciones data-driven dependen de la caracterización de las

variaciones de los datos del proceso. Existen dos tipos de variaciones en los datos de

procesos: causas comunes y causas especiales. Las variaciones por causas

comunes son las debidas enteramente a ruidos aleatorios (por ejemplo, el asociado a

lecturas de sensores), mientras que las variaciones por causas especiales se cuentan

como variaciones no atribuidas a causas comunes. Estrategias de control de procesos

estándar pueden ser capaces de remover la mayoría de las variaciones por causas

especiales, pero dichas estrategias no pueden remover las variaciones por causas

comunes, que son inherentes a los datos del proceso. Ya que las variaciones en los

datos del proceso son inevitables, teoría estadística juega un papel importante en la

mayoría de esquemas de monitoreo de procesos.

La aplicación de teoría estadística al monitoreo de procesos se basa en la suposición

que las características de las variaciones en los datos son relativamente incambiables

a menos que una falla ocurra en el sistema. Mediante la definición de una falla como

una condición anormal del proceso, es una suposición razonable. Esto implica que las

propiedades de las variaciones de los datos, tales como la media y la varianza, son

repetibles para las mimas condiciones de operación, aunque los valores actuales de los

datos puedan no ser predecibles. La repetitividad de las propiedades estadísticas

permite límites para ciertas mediciones, definiendo eficazmente el estatus de lo fuera-

de-control, ser determinado automáticamente. Éste es un importante paso para la

automatizar el esquema de monitoreo de un proceso.

Page 2: Estadística Multivariante

El propósito es el de ilustrar como usar los métodos para monitoreo de procesos, en

particular métodos usando la estadística multivariante T2.

2.2 Pre-tratamiento de datos

Para extrae la información relevante de los datos para efectivamente monitorear el

proceso, es comúnmente necesario pre-tratar los datos en el conjunto de

entrenamiento. El conjunto de entrenamiento contiene datos off-line disponibles para

Page 3: Estadística Multivariante

análisis previo a la implementación en línea del plan de monitoreo del proceso y es

usado para desarrollar las medidas que representan las operaciones en-control y las

distintas fallas. El procedimiento de pre-tratamiento consiste de tres tareas: remoción

de variables, auto-escalamiento, y remoción de datos fuera de rango.

Los datos en el conjunto de entrenamiento pueden contener variables que no tienen

información relevante para el monitoreo del proceso, y dichas variables deben ser

removidas antes de más análisis. Por ejemplo, se puede saber a priori que ciertas

variables exhiben errores de medición extremamente largos, tal como aquellos de

debido a calibraciones impropias de sensor, o algunas de las variables pueden ser

físicamente separadas de la porción del proceso que está siendo monitoreado. En

dichas instancias, la capacidad del método de monitoreo del proceso puede ser

mejorada por la remoción de las variables inapropiadas.

Datos de procesos comúnmente necesitan ser escalados para evitar variables

particularmente dominantes del método de monitoreo del proceso, especialmente

métodos basados en técnicas de reducción dimensional, tales como PCA y FDA. Por

ejemplo, cuando desempeñando una reducción dimensional sin escala del proceso de

mediciones de temperatura variando entre 300K y 320 K y variaciones en la medición

de concentración entre 0.4 y 0.5, las mediciones de temperatura dominarán inclusive si

las mediciones de temperatura no sean más importantes que las mediciones de

concentración para el monitoreo del proceso.

Page 4: Estadística Multivariante

EL auto-escalamiento estandariza las variables del proceso de tal forma que asegura

que cada variables le es dada igual peso antes de la aplicación del método de

monitoreo del proceso. Esto consiste en dos pasos. El primer paso es sustraer cada

variable por su media de muestra; ya que el objetivo es capturar la variación de los

dato de la media. El segundo paso es dividir cada variable de los datos de la media

centrada por su deviación estándar. Este paso escala cada variable a variación unitaria,

garantizando que las variables del proceso con altas varianzas no sean dominantes.

Cuando es aplicado el auto-escalamiento a nuevos datos del proceso, la media a ser

restada y la desviación estándar a ser dividida son tomadas del conjunto de

entrenamiento.

Valores fuera de rango son valores aislados medidos que son erróneos. Dichos

valores pueden influenciar significativamente la estimación de los parámetros

estadísticos y otros parámetros relacionados a una medida dada. Remover los valores

fuera de rango del conjunto de entrenamiento puede mejorar significativamente la

estimación de los parámetros y debe ser un paso esencial en el pre-tratamiento de

datos. Obviamente los valores fuera de rango pueden ser removidos mediante el

trazado e inspeccionando visualmente los datos de valores fuera de rango. Métodos

más rigurosos basados en umbrales estadísticos pueden ser empleados para remover

valores fuera de rango, y un método para hacerlo usando la estadística T2 es discutido

más adelante. Por simple presentación, es asumido que los datos han sido pre-

tratados, a menos que se indique lo contrario.

2.3 Monitoreo estadístico univariante

Un enfoque univariante estadístico para limitar detección-sensores puede ser usado

para determinar los umbrales para cada observación de variables (una variable de

proceso observada mediante la lectura de un sensor), donde dichos umbrales definen

el límite para operaciones control-adentro y una violación de dichos límites con datos

on-line indicarán una falla. Este enfoque es típicamente empleado usando Los

Gráficos de control Shewhart ver figura 2.1 y ha sido referida ha sido denominado

como límite de detección-sensor y Limite valor comprobado. Los valores de los

límites de control superiores e inferiores en los gráficos Shewhart son críticos para

Page 5: Estadística Multivariante

minimizar la rata de Falsas alarmas y la rata de detecciones pérdidas. Una falsa

alarma es un indicador de falla, cuando en realidad una falla no ha ocurrido; una

detección pérdida no es una indicación de falla, aunque una falla haya ocurrido. Para

la detección de fallas, existe un equilibrio inherente entre minimizar las falsas alarmas y

ratas de detecciones pérdidas. Umbrales con límites estrechos para una variable en

observación resulta en altas falsas alarmas y pequeñas ratas de detecciones pérdidas,

mientras límites que son muy separados resultan en uan rata baja de falsas alarmas y

detecciones pérdidas altas.

Fig 2.1 Ilustración de la gráfica de control de Shewhart. Los puntos negros son observaciones.

Dados ciertos valores umbrales, la hipótesis teórica estadística puede ser aplicada para

predecir falsas alarmas y ratas de detecciones pérdidas basado en la estadística de

datos en los conjuntos de entrenamiento. Considérese el caso donde puede haber una

potencial única falla i (el caso más general de múltiple clases de falla será tratado más

adelante). Dejemos que w represente el evento de una operación en-control y w i

represente el evento de una falla específica, i. Consideremos una única observación x

con la hipótesis nula (asigna x como w) y la hipótesis alternativa (asigna x como w i), la

Page 6: Estadística Multivariante

rata de falsa alarma es igual a el error tipo I, y la rata de detección pérdida para la falla i

es igual al error tipo II. Esto es ilustrado gráficamente en la figura 2.2.

Fig 2.2