Quimiometría RECONOCIMIENTO DE PAUTAS ANÁLISIS DISCRIMINANTE (Discriminant analysis) Quimiometría Reconocimiento de pautas supervisado si se cuenta con objetos cuya pertenencia a un grupo es conocida métodos: análisis de discriminantes máquina de aprendizaje lineal (linear learning machine) vecino más próximo (k-nearest neighbor) SIMCA (soft independent modeling of class analogies) redes neuronales artificiales Quimiometría Máquina de aprendizaje lineal (LLM) la primera aplicación en química analítica reconocimiento de pautas supervisado en 1969 del se empleó para clasificar un espectro de masas con respecto a las clases de ciertas masas moleculares la base de la clasificación con la LLM es una función discriminante que divide el espacio n-dimensional en regiones que pueden emplearse para predecir la pertenencia de una muestra de prueba Quimiometría Máquina de aprendizaje lineal (LLM) si se mide una variable, los datos se pueden representar en un espacio 1-dimensional decisión: ¿cuál es el valor de corte entre los dos grupos? el límite se encuentra por iteración Quimiometría Reconocimiento de pautas supervisado modelado de clase disjunta (hard modeling): se intenta encontrar un límite entre dos o más clases un objeto pertenece a una clase discreta se construye un modelo separado para cada clase modelado suave (soft modeling): dos clases pueden supersonerse un objeto puede pertenecer a dos clases Quimiometría Análisis discriminante es un técnica de reconocimiento de pautas supervisado se debe contar con objetos de entrenamiento o aprendizaje objetivo: encontrar una regla de decisión que asigne un objeto nuevo, cuya pertenencia a un grupo se desconoce, a uno de los grupos prefijados (con un cierto grado de riesgo) Quimiometría Análisis discriminante restricciones: son necesarios al menos dos grupos y para cada grupo dos o más casos el número de variables discriminantes debe ser menor que el número de objetos menos 2: x1, ... ,xp p < (n − 2) n es el número de objetos Quimiometría Análisis discriminante restricciones: el número máximo de funciones discriminantes es igual al mínimo entre el número de variables y el número de grupos menos 1 g grupos (g − 1) funciones discriminantes ninguna variable discriminante puede ser combinación lineal de otras variables discriminantes Quimiometría Función discriminante lineal suposiciones: las variables continuas deben seguir una distribución normal multivariante existen diferentes clases de centroides las varianzas y covarianzas son similares dentro de un grupo Quimiometría Análisis discriminante el límite entre grupos se toma a partir de una función discriminante lineal el límite (hiperplano) se calcula de tal manera que: la varianza entre clases es máxima la varianza dentro de las clases individuales es mínima Quimiometría Análisis discriminante a partir de: g grupos una serie de objetos y de p variables medidas sobre ellos (x1, … , xp) se trata de obtener para cada objeto una serie de puntuaciones que indican el grupo al que pertenecen (y1, ... , yp) de modo que sean funciones lineales de x1, …, xp Quimiometría Análisis discriminante no hay solapamiento en2las distribuciones para los dos grupos Situación más sencilla: clases y 2 variables: Y es mejor para discriminar entre los grupos FDL Y = 0,91X1+ 0,42X2 solapamiento en las distribuciones para los dos grupos Quimiometría Análisis discriminante para generalizar: se tiene una matriz X con: n objetos p variables g grupos x11 x 21 x 31 x 41 x j1 x n1 x 12 ⋯x 1p x 22 ⋯x 2p g1 x 32 ⋯x 3p g2 x 42 ⋯x 4p ⋮ x j2 ⋯x jp gnj x n2 ⋯x np Quimiometría Análisis discriminante se obtienen los autovectores (a) de la matriz (G-1 H) asociados a los autovalores elegidos en orden decreciente: G-1 H a = λ a λ = autovalor G = (n - g) C C: matriz de covarianza H: matriz de la dispersión de las medias del grupo (xj) con respecto al promedio (x) Quimiometría Función discriminante lineal a partir del autovector a1 se obtiene la primera FDL (s1) s1 = a11x1 + a12 x2 + … + a1p xp con el residual del dato x se calcula la segunda FDL s2 = a21x1 + a22 x2 + … + a2p xp se continúa hasta encontrar todas las FDL necesarias Quimiometría Análisis discriminante matriz de confusión: contiene el número de objetos correctamente clasificados en cada clase en la diagonal principal no detecta si un objeto pertenece a más de una clase asigna pertenencia a un grupo a los objetos atípicos que no pertenecen a ninguno de los grupos (outliers) Quimiometría Análisis discriminante matriz de correlaciones por grupo (pooled within-groups correlation matrix): se calcula como una matriz media de correlaciones calculadas por separado en cada grupo a menudo no se parece a la matriz de correlaciones total Quimiometría Análisis discriminante toma de decisiones cuando hay más de dos grupos de objetos: se supone una distribución normal multivariante se encuentra una nueva FDL para cada grupo que incluye un término constante a partir de estas FDL se calula una puntuación (score) para cada objeto nuevo (x) x se asigna al grupo cuya puntuación sea más alta Quimiometría Otros métodos de clasificación análisis discriminante cuadrático: supone que los dos grupos tienen distribuciones normales pero varianzas diferentes clasificación bayesiana: la pertenencia a un grupo tiene una probabilidad predefinida y se debe calcular la función de densidad de probabilidad validación cruzada: método de dejar uno fuera (leave-oneout method) empleada en el Minitab para validar el análisis discriminante Quimiometría Análisis discriminante Un ejemplo al investigar un crimen se recogió cabello humano para intentar resolver el crimen se tomaron muestras de cabello de tres sospechosos además de análisis morfológicos, se realizó un análisis elemental Quimiometría Análisis discriminante Cabello 1 2 3 4 5 6 7 8 9 Cu (ppm) 9,2 12,4 7,2 10,2 10,1 6,5 5,6 11,8 8,5 Mn (ppm) 0,30 0,39 0,32 0,36 0,50 0,20 0,29 0,42 0,25 Cl (ppm) 1730 930 2750 1500 1040 2490 2940 867 1620 Br (ppm) 12,0 50,0 65,3 3,4 39,2 90,0 88,0 43,1 5,2 I (ppm) 3,6 2,3 3,4 5,3 1,9 4,6 5,6 1,5 6,2 Análisis discrimixante Quimiometría Se encontraron tres grupos por PCA Grupo B: 1, 4 y 9 Grupo C: 3, 6 y 7 Grupo A: 2, 8 y 5 Quimiometría Análisis discriminante Cabello Grupo Cu (ppm) 1 B 9,2 2 A 12,4 3 C 7,2 4 B 10,2 5 A 10,1 6 C 6,5 7 C 5,6 8 A 11,8 9 B 8,5 Mn (ppm) 0,30 0,39 0,32 0,36 0,50 0,20 0,29 0,42 0,25 Cl (ppm) 1730 930 2750 1500 1040 2490 2940 867 1620 Br (ppm) 12,0 50,0 65,3 3,4 39,2 90,0 88,0 43,1 5,2 I (ppm) 3,6 2,3 3,4 5,3 1,9 4,6 5,6 1,5 6,2 Quimiometría Análisis discriminante se realiza un análisis discriminante de los datos con Minitab Summary of classification (matriz de confusión) True Group Put into Group A B C A 3 0 0 B 0 3 0 C 0 0 3 Total N 3 3 3 N correct 3 3 3 Proportion 1,000 1,000 1,000 N=9 N Correct = 9 Proportion Correct = 1,000 Quimiometría Análisis discriminante se realiza un análisis discriminante de los datos con Minitab Squared Distance Between Groups A B C A 0,000 141,541 212,893 B 141,541 0,000 149,928 C 212,893 149,928 0,000 Quimiometría Análisis discriminante se realiza un análisis discriminante de los datos con Minitab Linear Discriminant Function for Groups Constant Cu (ppm) Mn (ppm) Cl (ppm) Br (ppm) I (ppm) A -307,68 26,52 298,67 0,08 1,95 9,09 B -293,68 28,00 60,81 0,15 0,43 13,26 C -475,75 29,93 115,35 0,20 1,80 10,06 Quimiometría Análisis discriminante se realiza un análisis discriminante de los datos con Minitab Puntuaciones discriminantes lineales para cada grupo PDLA= -307,68+26,56xCu+298,67xMn+0,08xCl+1,95xBr+9,09xI PDLB= -293,68+28,00xCu+60,81xMn+0,15xCl+0,43xBr+13,26xI PDLC= -475,75+29,93xCu+115,35xMn+0,20xCl+1,80xBr+10,06xI Quimiometría Análisis discriminante la muestra de cabello encontrada en la escena del crimen tiene los siguientes valores (en ppm) Cu=9,2 Mn=0,27 Cl=2200 Br=9,8 I=4,7 A=-307,68+26,56x9,2+298,67x0,27+0,08x2200+1,95x9,8+9,09x4,7 B=-293,68+28,00x9,2+60,81x0,27+0,15x2200+0,43x9,8+13,26x4,7 C=-475,75+29,93x9,2+115,35x0,27+0,20x2200+1,80x9,8+10,06x4,7 PDLA= 255,15 PDLB= 376,87 PDLC= 335,67 Quimiometría Análisis discriminante se realiza un análisis discriminante incluyendo el nuevo dato con Minitab Prediction for Test Observations Squared Observation Pred Group From Group Distance Probability 1 B A B C 249,045 28,162 114,734 El cabello pertenece al sospechoso B 0,000 1,000 0,000