FDI CON TÉCNICAS ESTADÍSTICAS MULTIVARIANTES María Jesús de la Fuente Dpto. Ingeniería de Sistemas y Automática Universidad de Valladolid Índice Control estadístico de procesos (SPC) Introducción Estadísticas univariantes Estadísticas multivariantes (MSPC) Análisis de componentes principales (PCA) Mínimos cuadrados parciales (PLS) Discriminante de Fisher (FDA) Aplicación a detección y diagnóstico de fallos Variabiliad de los procesos Monitorización vs Regulación Monitorización: sistema de información de la evolución del proceso para la detección de fallos y ayuda a su diagnóstico. Regulación: se fuerza al proceso a seguir un comportamiento determinado mediante ajustes en variables manipulables. Variabilidad Causas de la variabilidad Causas comunes Variabilidad inherente al proceso Tienen carácter permanente Su efecto da lugar a una pauta de variabilidad estable o predecible, cuantificada por la capacidad del proceso Si sólo hay causas comunes el proceso está BAJO CONTROL Su solución exige modificar el sistema que incumbe a la Dirección Causas especiales Fluctuaciones no inherentes al proceso Tienen carácter esporádico o puntual Su efecto da lugar a una pauta de variabilidad errática o impredecible Si aparecen causas especiales el proceso está FUERA de CONTROL En general pueden solucionarse mediante actuaciones locales a cargo de los operarios o encargados del proceso Distribución normal y Variabilidad natural n μˆ = ∑q t =1 t n n σˆ 2 = ∑ (q t =1 t − μˆ ) 2 n −1 n suele ser pequeño (4 -10) para evitar la aparición de causas asignables durante ese tiempo Control estadístico de procesos Control estadístico de procesos SPC: Estabilidad y capacidad del proceso Dadas unas especificaciones y el comportamiento normal del proceso: Especificaciones (proceso/Producción) LSL: Límite inferior de especificación USL: límite superior Comportamiento natural del proceso (estadísticamente normal) LPL: límite inferior del proceso UPL: límite superior Cuando los límites de las especificaciones son mayores que los límites naturales del proceso (ambos), se dice que el proceso es estable y capaz y producirá con 100% de producto correcto Cuando el proceso es estable pero los límites de control son mayores que los de especificación (uno o ambos), el proceso es estable pero no es capaz y aparecen errores en la producción Control de la calidad del proceso (SQC) Control estadístico de procesos (SPC) Objetivos Establecer un sistema de información permanente e inteligente de la evolución del procesos. Detectar precozmente anomalías (causas especiales) Tratar de identificar el origen de las anomalías Eliminarlas y evitar su reaparición en el futuro ( o incorporarlas al proceso si son favorables). Estadísticas univariantes - Gráficas de control Cusum: sumas acumulativas EWMA: media móvil pesada exponencialmente Control estadístico de procesos (SPC) Idea básica: Graficar la evolución de ciertos estadísticos, obtenidos a partir de muestras tomadas periódicamente de los procesos, utilizando gráficos que facilitan la rápida detección visual de señales estadísticas reveladoras de la salida de control. 5 Límite superior de control: LSC 4 .5 4 3 .5 Línea central 3 2 .5 2 1 .5 Límite inferior de control: LIC 0 5 10 15 Número de muestras 20 25 SPC: Gráficas de control Las gráficas de control son una representación del comportamiento del proceso dada por la localización (media o mediana) y su variación (rango o desviación estándar) de las variables observadas: Los índices de localización y variación se usan para calcular los límites normales de operación para cada variable: σ LPL: μ - 3 σ UPL: μ + 3 SPC. Gráficos de la media y del rango Procedimiento: K subgrupos de n observaciones cada uno. Calcular: Media ( x i) y el rango (Ri) de cada subgrupo Media de las k medias: Media de las k rangos: R x Obtener los límites de control a través de tablas: A2, D4, D3 SPC: Gráficos de la media y el rango SPC: Detección de fallos Reglas de decisión: 4.5 4 Regla 1. 1 punto fuera de los límites de control, sistema fuera de control Regla 2. 7 puntos consecutivos sobre o debajo de la media: pauta Regla 3. 7 puntos consecutivos en un orden creciente o decreciente: tendencia Regla 4. Concentración de cinco puntos consecutivos alrededor de la media o dispersión de 5 puntos consecutivos alejados de la media 3.5 3 5 2.5 4 2 3 1.5 2 1 1 0.5 0 5 10 15 20 0 -1 -2 0 5 10 15 20 25 25 SPC. CUSUM (Cumulative SUMs) I Las gráficas de control anteriores tienen algunas limitaciones inherentes a los límites de control considerados: μ ± 3 σ (bajo número de falsas alarmas): Esto permite detectar sólo grandes variaciones Tienen una respuesta muy lenta: retardo entre la aparición del fallo y su detección. CUSUM es una reinterpretación de los límites de control orientado a reducir el tiempo de detección del fallo, pero preservando el ratio de falsas alarmas. CUSUM se basa en el método anterior y puede usarse en combinación con él. SPC. CUSUM (Cumulative SUMs) II Los límites de control en las gráficas de control tradicionales son: Pero podemos calcular z como: Entonces, se puede calcular un zi para cada observación xi Se calculan las siguientes sumas acumuladas: donde k es un parámetro de sensibilidad relacionado con el mínimo cambio a detectar. SPC. CUSUM (Cumulative SUMs) III El parámetro k corresponde con la mitad de la magnitud a ser detectada, típicamente k=0.5 Para detectar fallos hay que definir un umbral, h, para las dos magnitudes calculadas SH y SL. Típicamente: h=4 o 5 En estos casos el número de falsas alarmas es: Para k=0.5, h=4 → ARL=168 Para k=0.5, h=5 → ARL=465 R1 (un punto fuera de los límites de control ± 3 σ ) . ARL=370 ARL=Average Run lenght (entre falsas alarmas) Ejemplo Ejemplo SPC. EWMA EWMA: media móvil pesada exponencialmente El objetivo es similar a CUSUM: respuesta rápida ante fallos. La secuencia de observaciones se reemplaza por una secuencia filtrada calculada como: Del estudio estadístico de la señal transformada se obtienen los límites de control como: SPC. Ejemplo Control estadístico de procesos multivariante (MSPC) para detección de fallos Motivación PCA: análisis de componentes principales SPL: mínimos cuadrados parciales (partial least squares) FDA: Discriminante de Fisher MSPC. Motivación I Limitaciones del control estadístico de procesos univariante: Las variables se procesan individualmente => una gráfica de control por cada variable. Sólo se pueden monitorizar un número pequeño de variables Por tanto, sólo las “variables más importantes” son monitorizadas No se tiene en cuenta la correlación entre variables, fundamental en un proceso industrial MSPC se implementa para monitorizar el conjunto completo de variables del proceso. MSPC. Motivación II Naturaleza de los datos tomados de un proceso industrial: Dimensionalidad (muy elevada) Colinealidad No ocurren miles de cosas independientes Sólo unos cuantos acontecimientos subyacentes afectan a todas las variables Las variables están altamente correlacionadas Ruido (ratio bajo señal/ruido) Datos faltantes (fallos en sensores) Datos espurios MSPC. Motivación III x e y están muy correlacionadas Fuera de control PCA: Análisis de componentes principales PCA es una técnica de proyección que Los datos se proyectan a un espacio de menor dimensión que el original. Produce una reducción de la dimensionalidad Preserva la estructura de correlación de las variables del proceso Es óptimo en términos de capturar la máxima variabilidad de los datos PCA nos permite dividir el espacio en dos subespacios diferentes: uno captura la tendencia del proceso y otro el ruido La estructura PCA es útil para identificar las variables responsables de los fallos y/o las variables que están más afectadas por los fallos PCA. Interpretación geométrica I Interpretación geométrica: Se desea proyectar los puntos sobre un espacio de dimensión menor: recta (dimensión 1), pero manteniendo lo más posibles sus posiciones relativas. Si lo hacemos para un punto en concreto: PCA. Interpretación geométrica II Tenemos lo siguiente: Tenemos: xi = xˆi + ei xˆi = ti p i Donde pi es el vector unitario y director de la recta, y ti es el módulo del vector x̂ i pi => ‘loading’ ti => ‘score’ La condición que la recta pase cerca de la mayoría de los puntos se consigue exigiendo que la distancia entre los puntos originales y sus proyecciones sobre la recta sea la mínima posible PCA. Interpretación geométrica III Resultado: de esta forma se conserva la variabilidad de los puntos. Si proyectamos en la dirección perpendicular: los puntos tienen poca variabilidad y se pierde toda la información sobre sus distancias en el espacio. PCA: pre-tratamiento de los datos Se necesita un conjunto de datos representativo del comportamiento normal de la planta para calcular el modelo PCA Hay que realizar un pretratamiento de estos datos: Eliminar las variables inapropiadas: por ejemplo las que tienen errores de medida muy grande Escalado: para asegurar que cada variable tiene el mismo peso en el proceso de monitorización: Restar de cada variable su valor medio (el objetivo es capturar la variación de la media) Dividir cada variable por su desviación estándar (las variables se escalan para tener varianza unidad) Eliminar datos espurios (outliers) PCA. Matriz de covarianza Dado un conjunto de datos de entrenamiento que contienen n observaciones de m variables del proceso (de media cero y varianza unidad), se colocan en la matriz X ∈Rnxm ⎛ x11 ⎜ ⎜ x 21 X=⎜ ... ⎜ ⎜x ⎝ n1 x12 x 22 ... x n2 ... x1m ⎞ ⎟ ... x 2m ⎟ Observación 2 ... ... ⎟ ⎟ ... x nm ⎟⎠ X: (n x m) Variable x2 La matriz de covarianza, R, puede estimarse a partir de los datos de la forma siguiente: 1 R= XTX R: (m x m) n −1 PCA: valores y vectores propios La descomposición en valores y vectores propios (o en valores singulares: SVD) de R revela la estructura de correlación de las variables R = VΛV T R: (m x m) V: (m x m) Donde Λ: (m x m) Λ, es una matriz diagonal, que contiene todos los valores propios reales no negativos de R en orden decreciente en su diagonal principal, y cero en todos los demás elementos λ1 ≥ λ2 ≥ L ≥ λm ≥ 0 El valor propio i es igual al cuadrado de i-esimo valor singular: λi = σi2 V es una matriz ortogonal (VTV = I). Las columnas de V son los vectores propios (llamados en PCA: ‘scores’) Así, la varianza de los datos de entrenamiento proyectados sobre la columna i-ésima es igual a σi2 PCA: Loadings y scores La proyección del un vector de observaciones x∈Rm desacopla el espacio de observaciones en un conjunto de variables no correlacionadas correspondientes a los elementos de t t = xV x: (1 x m) V: (m x m) t: (1 x m) La columna i-ésima de V es el vector de caga pi (loading) que transforma x en el ‘score’ ti Las variables transformadas se llaman ‘componentes principales’ y las observaciones individuales transformadas son los ‘scores’ PCA. Reducción de la dimensionalidad Reteniendo sólo los a vectores de carga (matriz P) correspondientes a los a valores singulares más grandes, podemos proyectar un vector de observación x ∈ Rm en un espacio de menor dimensión: Ra. t: (1 x a) t = xP x: (1 x m) P: (m x a) a<m O aplicando esta transformación a todo el conjunto de datos de entrenamiento (X: n x m), tenemos: T = XP T: (n x a) X: (n x m) P: (m x a) PCA. Propiedades Definiendo ti como la columna i-ésima de T (conjunto de datos transformado), se cumplen las siguientes propiedades: var(t1) ≥ var(t2) ≥ … ≥ var(ta) (varianza está ordenada) media(ti) = 0; ∀i (centrado en la media) tiTtj = 0; ∀ i≠j (descomposición ortogonal) No existe ninguna otra expansión ortogonal de a componentes que capture más variación de los datos PCA. Matriz de los residuos Podemos calcular nuevamente los datos originales en función de T: Xˆ = TP T Y ahora podemos definir una matriz de residuos: E, calculada como la diferencia entre el espacio original X y el espacio calculado: E = X − Xˆ El espacio de los residuos, E, captura la variación de los datos de observación contenidos en los vectores propios (carga) asociados con los m-a valores singulares más pequeños. X = TP T + E PCA. Reducción del orden del sistema (I) Hay varios criterios para reducir el orden del sistema (elección de a): Test del porcentaje de la varianza: se selecciona a de forma que explique un porcentaje específico de la varianza total. Test scree (test del codo): se representa los valores de λi frente a i, y se busca un codo en la gráfica, un valor a partir del cual todos los λi son iguales y pequeños: PCA. Reducción del orden del sistema (II) Análisis paralelo: determina a comparando el comportamiento de la varianza obtenido suponiendo que todas las variables son independientes. El orden se determina en el punto al cual los dos gráficos se cruzan Validación cruzada: usando la estadística PRESS (prediction sum of squares) 1 PRESS (i ) = X − Xˆ mn 2 PCA para detección de fallos (I) La reducción dada por los PCA representa la misma información en un espacio de dimensión menor. Este nuevo espacio se va a utilizar para monitorizar el proceso. Se trabaja con dos estadísticas: Estadística de Hotelling’s o T 2 que se utiliza en el espacio de dimensión a, para detectar comportamientos anómalos del sistema cuando traspasan un umbral. Estadística Q se usa para monitorizar el resto del espacio de observación correspondiente a los m-a valores singulares más pequeños, es decir para monitorizar el espacio de los residuos PCA para detección de fallos (II) Estadística Hotelling’s o T2: Para a componentes principales la estadística T2 se calcula: a T 2 = ∑ ti λi−1tiT = xPΛ−a1 P T xT i =1 t = xP t: (1 x a) x: (1 x m) P: (m x a) Cuando se calcula para una observación x, de n variables, T2 puede interpretarse como la distancia de la observación al centro del modelo (media). Los scores está escalados inversamente proporcional a la varianza. Esto permite definir un umbral escalar característico de la variabilidad en todo el espacio a-dimensional Dado un nivel de significancia (nivel de falsas alarmas), se puede calcular automáticamente un umbral para T2 PCA para detección de fallos (III) El umbral para T2 se calcula: Donde: 2 ( n − 1)a Tα2 = Fα (a, n − a ) n( n − a ) a: número de componentes principales seleccionado n: número de observaciones Fα es la distribución de Fisher-Snedecor, con a y n-a grados de libertad α nivel de significancia o 100α % es el radio de falsas alarmas La estadística T2 es útil para detectar operaciones del proceso fuera de sus condiciones normales de operación La calidad de los datos según el modelo Es una medida en la dirección del modelo Los datos conservan la estructura del modelo pero con valores más grandes (desde el punto de vista de la media). PCA para detección de fallos (IV) A partir de un vector de observación, x, se calcula el vector de residuos como: r = x − xˆ = x − tP T = x − xPPT = x( I − PPT ) El error de predicción al cuadrado o estadística Q se calcula a partir de los residuos como: Q = rr T El umbral se calcula también estadísticamente: PCA para detección de fallos (V) Interpretación de las estadísticas T2 y Q PCA para detección de fallos (VI) Procedimiento de cálculo: Off-line: conseguir datos de comportamiento normal de la planta, y construir la matriz X, eliminando datos no deseados y centrando los datos para tener media cero y varianza unidad Calcular el modelo PCA en condiciones normales y los umbrales de las estadísticas: T2 y Q On-line: Para una nueva observación del proceso, x, se normaliza con la media y la varianza del PCA calculado, se calculan las estadísticas T2 y Q para ese datos y se comparan con sus umbrales. Si alguna de las dos estadísticas supera el umbral, ha ocurrido un fallo. PCA para detección de fallos (VII) Ejemplo: PCA. Identificación de fallos (I) ¿Qué variables del espacio original son las responsables del fallo detectado (del cruce de las estadísticas por su umbral)? Diagramas de contribución (para ambos SPE y T2) Para la observación con fallo: Determinar los r scores t (r<a) responsables del estado de i fuera de control (los que cumplan que ti2/λi > 1/α (Tα2)) y calcular la contribución de cada variables xj a ese score ti que está fuera de control. contij = ti λi pij x j Calcular la contribución total de la varible j-ésima r CONT j = ∑ contij i =1 Dibujar CONTj PCA. Identificación de fallos (II) Ejemplo: PCA. Identificación de fallos (III) Para diagnosticar fallos se puede hacer lo siguiente: Calcular un modelo PCA para cada situación posible del sistema, es decir, un modelo PCA0 con datos de situación normal, PCA1 con datos de situación de fallo1, etc… Calcular un umbral para cada una de las estadísticas Ti2 y Qi para cada situación posible. Tomar un nueva observación de la planta 2 Calcular las estadísticas T i y Qi para cada situación y aquella que no supere su umbral nos indica la situación actual de la planta. Ejemplo. Estación de evaporación I Estación de evaporación de una fabrica azucarera. Se utiliza un modelo basado en primeros principios muy exhaustivo. Ejemplo. Estación de evaporación II Hay 46 variables en el proceso Fallos: Fallo 1: rendimiento en las calderas de evaporación: la transmisión de calor entre el vapor de calefacción y el jugo de los evaporadores disminuye, lo que ocasiona una disminución del agua evaporada, una disminución de la presión en el efecto correspondiente y una reducción del Brix Fallo 2: fallo en la válvulas de control Fallo 3: Aumento de la fracción de incondensables que entran al evaporador y reducción de la apertura de la válvula de salida de estos Fallo 4. Disminución del rendimiento de una de las bombas de circulación de jugo de anteevaporación Ejemplo. Estación de evaporación III Se obtienen 5 componentes principales que explican el 95% de la varianza del proceso. Ejemplo. Estación de evaporación IV Fallo 1. Diagrama de contribuciones Ejemplo. Estación de evaporación V Fallo 2. Diagrama de contribuciones Otros métodos de MSPC PLS: mínimos cuadrados parciales -FDA: Análisis del discriminante de Fisher - PLS: Partial Least Squares or Projection to Latent Structures PLS es también una técnica de reducción de la dimensionalidad Objetivo: Obtener un modelo en un espacio de menor dimensión que maximice la covarianza entre una matriz independiente, X (Matriz de predicción) y otra matriz dependiente de X, Y (Matriz predicha) Los elementos de la matriz X son las observaciones (variables del proceso) Los elementos de Y pueden ser: Medidas de la calidad del producto Miembros de una clase dada Y puede estar formada por una sola variable (PLS1) o por un conjunto de ellas (PLS2) PLS: fundamentos I Modelo PLS es un modelo de predicción calculado basándose en: Capturar la máxima variación en X con el número mínimo de variables (PCA) Maximizando la correlación entre X e Y a p U n max cov(ta, ua) Y n a QT p PLS: fundamentos II T y U son los ‘scores’ y P y Q son los ‘loadings’ asociados con las matrices X e Y respectivamente B es una matriz de regresión lineal entre los espacios de los ‘scores’ que debemos calcular Hay varios algoritmos para obtener este modelo, el más utilizado es el NIPALS (recursivo) PLS: fundamentos III Algoritmo: 1.- X∈ Rnxm (n: número de observaciones, m: número de variables), Y∈Rnxp (n: igual, p: numero de variables de calidad). Normalizar X e Y para tener media cero y varianza unidad para cada variable 2.- Inicialización: E0 = X, F0 = Y e uj= cualquier columna de Y 3.- Iterar hasta la convergencia comparando tj con su valor en la iteración anterior, empezando j=1: PLS: fundamentos IV Calcular t1, u1 y w1 de la forma anterior es equivalente a calcular los vectores propios de: XXTYYT, YYTXXT y XTYYTX asociados a los valores propios más grandes. 4.- Calcular pj: 5.- Se escala pj, tj y wj con la norma de pj, anterior p j, nuevo = p j, anterior p j, anterior 2 t j, nuevo = t j, anterior p j, anterior 2 w j, nuevo = w j, anterior p j, anterior 2 PLS: fundamentos V 6.- Se calcula bj: bj = t Tj t j 7.- Se calculan los residuos para la siguiente iteración: E j = E j-1 − t j p Tj u Tj t j Fj = Fj-1 − b j t j p Tj 8.- Hacemos j=j+1 y pasamos al paso 3 para la siguiente iteración. Esto se repite hasta que j=min(m,n) o hasta que se calculen el número adecuado “a” de factores PLS. Este orden de reducción se calcula usando validación cruzada. PLS: predicción PLS puede usarse como modelo de predicción: Se calcula la matriz de regresión B2: B2 j = Wj (PjT Wj ) −1 (TjT Tj ) −1 TjT Y La Y predicha se calcula como: Ypredicha = X * B2 a PLS: para detección y diagnóstico de fallos PLS puede usarse para calcular un modelo de predicción, en este caso Y son las variables de calidad del producto, y se monitorizan las variaciones de X relacionadas con la calidad del producto. Estadística T2: Para los nuevos datos x recolectados de la planta: Normalizar x Calcular: T = x*W 2 Calcular la estadística T Comparar con un umbral Estadística Q: Calcular Q xˆnew = TP T donde Comparar con un umbral PLS: para detección y diagnóstico de fallos PLS discriminante, se usa para detectar fallos, o para distinguir entre diversas clases: Dos posibilidades: PLS1: La matriz Y se forma como una columna de unos La matriz X solo contiene datos de comportamiento normal Se calcula el modelo PLS para este comportamiento 2 Detección: Se calculan las estadísticas T y Q para datos nuevos de la planta y si superan el umbral hay un fallo (no hay comportamiento normal) Diagnosis: o se usa el diagrama de contribuciones como en PCA o se calcula un modelo PLS para cada posible situación de fallo, como hacíamos en PCA. PLS: para detección y diagnóstico de fallos PLS2: La matriz Y: La matriz X tiene variables de todas las posibles situaciones de fallo, colocando en las n1 primeras filas comportamiento normal, en las n2 restantes fallo 1, etc.. Detección y diagnóstico: ⎛1 0 0 L 0⎞ ⎜ ⎟ M M M L M ⎜ ⎟ ⎜1 0 0 L 0⎟ ⎜ ⎟ ⎜ 0 1 0 L 0⎟ ⎜ ⎟ M M M L M ⎜ ⎟ ⎜ Y = 0 1 0 L 0⎟ ⎜ ⎟ ⎜M L O L M⎟ ⎜M L O L M⎟ ⎜ ⎟ 0 0 0 L 1 ⎜ ⎟ ⎜M M M L M⎟ ⎜⎜ ⎟⎟ 0 0 0 L 1 ⎝ ⎠ Calcular B2 Calcular la Y predicha: Ypre= x * B2a Comparar con la Y original p columnas n1 primeras filas indican que hay un fallo de tipo 1 Ejemplo. Dos tanques comunicantes I Datos reales: planta de laboratorio: dos tanques comunicantes. Ejemplo. Dos tanques comunicantes II Fallos considerados: Atasco a la salida del primer tanque: f1 Atasco a la salida del segundo tanque: f2 Fallo en el sensor de nivel 1: f3 Fallo en el sensor de nivel 2: f4. Consideramos un modelo PLS para cada tipo de fallo Se calculan las dos estadísticas T2 y Q, pero la más eficaz es Q, porque T2 da muchas falsas alarmas, por lo que los resultados sólo muestran al estadística Q. Ejemplo. Dos tanques comunicantes III PLS1 para detección de fallos: Un modelo PLS de comportamiento normal Fallo en el sensor de nivel Fallo en la bomba Ejemplo. Dos tanques comunicantes IV PLS1 para detección y diagnóstico de fallos: Modelo PLS con comportamiento normal Modelo PLS con datos de fallo en el sensor de nivel 1 del 40% en el instante 1000 Modelo PLS con datos de fallo en el sensor de nivel 2 del 40% en el instante 1000 Etc Testeamos con un fallo en h1 del 30% en el instante 1500 Ejemplo. Dos tanques comunicantes V Comportamiento del modelo PLS de h1 con datos de fallo en h1: Comportamiento del modelo PLS de h2 con datos de fallo en h1: Comportamiento del modelo PLS de q1 con datos de fallo en h1: Comportamiento del modelo PLS de q2 con datos de fallo en h1: Ejemplo. Dos tanques comunicantes VI PLS2: utilizar PLS2 para distinguir distintas clases X datos de 2 clases: comportamiento normal y fallo en h1 Calculamos Ypred= X*B2a=> y representamos las tres componentes de Ypred (nos hemos quedado con 3 factores PLS) Ejemplo. Dos tanques comunicantes VII Ahora pongo PLS2 con 3 clases (normal, fallo en h1 y fallo en h2) Si hay 4 clases FDA: Análisis discriminante de Fisher FDA. Fundamentos I FDA también es una técnica de reducción de la dimensionalidad. La dimensionalidad se reduce en términos de maximizar la distancia entre varias clases. FDA determina un conjunto de vectores de transformación lineal que: Maximiza la distancia entre clases Minimiza la distancia dentro de la propia clase Método útil para detectar fallos: cada clase es una posible situación de operación de la planta: Clase 1: comportamiento normal Clase 2: comportamiento con fallo 1 etc FDA. Fundamentos II Se define n: como el número de observaciones, m: número de variables, p es el número de clases y nj es el número de observaciones de la clase j. Los datos se almacenan en la matriz X ∈ R(nxm) ⎛ x11 ⎜ ⎜ x 21 X=⎜ ... ⎜ ⎜x ⎝ n1 x12 x 22 ... x n2 ... x1m ⎞ ⎟ ... x 2m ⎟ ... ... ⎟ ⎟ ... x nm ⎟⎠ Se define una serie de conceptos: Matriz de dispersión total, St: con x el valor medio total 1 n x = ∑ xi n i =1 n S t = ∑ (x i − x)(x i − x) T i =1 FDA. Fundamentos III Matriz de dispersión de la clase j Sj: S j = T (x − x )(x − x ) ∑ i j i j x i ∈X j donde Xj es el conjunto de vectores xi que pertenecen a la clase j, y x j es el valor medio de los datos de la clase j xj = 1 nj ∑x x i ∈X j i p Matriz de dispersión dentro de las clases Sw: p j=1 Matriz de dispersión entre clases Sb: S b = ∑ n j (x j − x)(x j − x) T j =1 Sw = ∑ S j Notar que: St = Sb + Sw FDA. Fundamentos IV El objetivo para calcular el primer vector FDA, w1, es maximizar la dispersión entre clases mientras que se minimiza la dispersión dentro de la clase: T w Sw max 1T b 1 w1 ≠ 0 w S w 1 w 1 El objetivo del segundo vector FDA es resolver el mismo problema con w2 pero considerando que tiene que ser perpendicular al primer vector FDA, y así sucesivamente. Esto es equivalente a resolver el siguiente problema de valores y vectores propios: FDA. Fundamentos V λk indica el grado de separabilidad entre las clases cuando se proyectan los datos originales sobre el nuevo espacio de dimensión reducida: w Si llamamos Wa a la matriz conteniendo los a primeros vectores FDA elegidos, la transformación de los datos originales sobre este espacio de dimensión reducida es: Problema: elección de los a factores FDA más adecuados: Correlación cruzada Cuando hay pocos datos, elegir a que minimice el criterio: a f m (a) + ~ n fm(a) son los datos mal clasificados ñ es el número medio de observaciones por clase FDA. Detección y diagnóstico de fallos I Definir una función discriminante que nos clasifique los datos actuales recogidos de la planta a alguna de las clases definidas: normal, fallo1, fallo2, etc. Un dato se asigna a la clase i cuando el valor máximo de la función discriminante gi satisface: La función discriminante que minimiza el error cuando ocurre el evento, vi (por ejemplo un fallo) es: donde P(vi|x) es la probabilidada posteriori de que x pertenezca a la clase i FDA. Detección y diagnóstico de fallos II p(x v i )P(v i ) Según la regla de Bayes: y suponiendo que los datos están normalmente distribuidos P(x v i ) = P(v i x ) = p(x) 1 ⎤ ⎡ 1 T −1 exp (x μ ) Σ (x μ ) − − − i i i ⎥ 1/2 ⎢⎣ 2 (2π2m/2 [det (Σ i )] ⎦ La función gi(x) definida anteriormente se puede sustituir por: sustituyendo la probabilidad: 1 m 1 g i (x) = − (x − μ i ) T Σ i−1 (x − μ i ) − ln2π − ln[det(Σ i )] + lnP(v i ) 2 2 2 FDA. Detección y diagnóstico de fallos III y si caracterizamos dicha función para nuestro caso particular, considerando los vectores FDA, la función discriminante para cada clase es: ⎛ 1 ⎞ 1 T g j (x) = − (x − x j )Wa ⎜ Wa S j Wa ⎟ ⎜ n j −1 ⎟ 2 ⎝ ⎠ ⎞⎤ 1 ⎡ ⎛⎜ 1 T Wa S j Wa ⎟⎥ − ln ⎢det ⎟⎥ 2 ⎢ ⎜⎝ n j − 1 ⎠⎦ ⎣ −1 WaT (x − x j ) + ln(p i ) Para clasificar datos se calcula la función discriminante para cada clase y la mayor de ellas nos dice a que clase pertenecen los datos actuales recogidos de la planta. FDA: Ejemplo. I Planta real de dos tanques comunicantes. Un modelo FDA con las 5 clases (clase 1: situación normal, clase 2: fallo en el sensor de nivel del tanque 1, clase 3: fallo en el sensor de nivel del tanque 2, etc.) En cada caso tenemos 2 vectores FDA, si proyectamos los datos de cada posible situación sobre el modelo FDA: Dispersión entre clases: FDA: Ejemplo II Calculamos las funciones discriminantes Sin fallo Con fallo 1 FDA: Ejemplos III Fallo 2 Fallo 3 Fallo 4: fallo en q2 FDA: Ejemplos IV Una solución más eficaz: Detectar fallos con PCA o PLS (sólo un modelo PCA o PLS con datos de comportamiento normal). Diagnosticar con FDA: un modelo FDA con 4 clases de datos: fallos pero no el comportamiento normal. FDA: Ejemplos V Fallo 1 Fallo 4