APUNTES DE QUIMIOMETRIA REGRESIO LINEAL Datos anómalos y levas en las rectas de calibrado. Regresión robusta Mínima mediana de cuadrados Recta de calibrado mediante mínimos cuadrados. Hipótesis básicas Estimación de los coeficientes de regresión por mínimos cuadrados La elipse: región de confianza conjunta de la pendiente y la ordenada Validación de un método analítico en estudio con uno de referencia Datos anómalos y levas en las rectas de calibrado. Regresión robusta. La obtención de las rectas de calibrado requiere un estudio previo de los datos experimentales obtenidos con el objetivo de detectar la presencia de observaciones heterogéneas, ya que, un solo punto puede condicionar la posición de la recta de regresión. La identificación de las observaciones heterogéneas es una etapa clave en la obtención del calibrado de forma que, una vez que sean tratadas convenientemente, se pueda realizar el ajuste de los datos experimentales mediante mínimos cuadrados con garantías de precisión y exactitud. El propósito del análisis de regresión es ajustar las variables observadas a ecuaciones. En el modelo lineal clásico se asume una relación del tipo: yi = α + βxi + ei para i = 1,..., n; donde: n es el tamaño de la muestra o número de casos; xi es la variable independiente; yi es la variable respuesta; ei error asociado a la variable respuesta y, α y β son la ordenada en el origen y la pendiente de la verdadera recta que relaciona ambas variables. Los métodos de regresión lineal permiten obtener los coeficientes de la regresión a y b, estimadores de α y β que, operando sobre la variable independiente resultan los valores estimados de la variable respuesta, íi = a + bxi. El residuo de cada variable respuesta, ri, es la diferencia entre el valor de dicha variable y su valor observado. Los distintos métodos de regresión se basan en hacer óptimo el ajuste minimizando una función de los residuales. A continuación se explicará e ilustrará el efecto de datos heterogéneos en el modelo de regresión lineal. En la figura 1.a se representan cinco puntos alineados (x1, y1),.., (x5,y5), por lo que, el método de mínimos cuadrados ofrece un ajuste muy bueno. Supongamos que se ha cometido un error en el valor de y4 que aleja el punto (x4, y4) de la recta anteriormente considerada (figura 1.b). Este tipo de datos heterogéneos los denominaremos puntos anómalos y mantienen el valor medio de los xi, variando el de los yi. Los datos anómalos tienen una gran influencia en la localización de la recta de mínimos cuadrados, así, la recta obtenida en este caso difiere bastante de la anterior, ya que, para minimizar el sumatorio de errores al cuadrado, la recta de mínimos cuadrados gira sobre la nueva posición de ( x , y ) para aproximarse al dato anómalo y hacer más peque½o su error. Se provoca así que el punto anómalo (x4, y4) deje un residual positivo, mientras que los puntos restantes dejen residuales negativos. El efecto es, sin duda, que la recta de mínimos cuadrados, debido a su gran sensibilidad ante las variaciones del valor medio, puede enmascarar datos anómalos y conduciéndonos a su vez a predicciones poco congruentes. Figura 1. a) Conjunto de cinco datos y su recta de regresión por mínimos cuadrados. b) Los mismos datos pero con un punto anómalo de la recta en el eje de ordenadas. Si, además, el punto considerado dista bastante del resto de las observaciones constituye lo que denominamos un punto leva, lo que, potencialmente, puede afectar significativamente a los valores de los coeficientes de regresión, pero que, no necesariamente, tiene por qué afectarlos. (figura 2). Es importante hacer notar que para que un punto (xi, yi) sea considerado como leva sólo se tiene en cuenta el valor de xi, por lo que no necesariamente tiene que ser un punto anómalo de la recta, ya que no tenemos en cuenta el valor de yi. Figura 2. El punto (xk, yk) es un punto leva que no constituye un punto anómalo de la recta de regresión por mínimos cuadrados y no afecta a los coeficientes de regresión. Mínima mediana de cuadrados La regresión por mínima mediana de cuadrados es un estimador muy robusto con respecto a la presencia de datos anómalos (recordemos que la mediana es un estadístico poco sensible a las grandes desviaciones con respecto al grueso de los datos). La solución se basa en minimizar las desviaciones con respecto a la mediana, es decir: Minimizar a,b med i ( yi - (a + b xi ) )2 Geométricamente, corresponde a encontrar la banda más estrecha, medida en el eje de ordenadas, que contiene la mitad de las observaciones. La recta se sitúa justo en medio de dicha banda, por tanto, la robustez de este método es tal que puede discernir la recta buscada con una contaminación de los datos incluso del 50%. El principio básico de la mínima mediana de cuadrados es ajustar los datos y, posteriormente, identificar los datos anómalos como aquellos que distan bastante del ajuste robusto, es decir, aquellos que producen grandes residuos “RS” positivos o negativos. Los puntos leva se determinan calculando la resistencia al diagnóstico “RD” teniendo en cuenta la lejanía de la observación El 50% de las RDi valdrán menos que la unidad. Un punto i será leva si RDi > 2.5. En cualquier caso, una observación que tenga RDi grande necesariamente no es un punto anómalo de la recta en el sentido de producir un gran residuo. Recta de calibrado mediante mínimos cuadrados. Hipótesis básicas El método de mínimos cuadrados admite que los factores que pueden influir en la variable respuesta (se½al analítica) pueden dividirse en dos grupos: el primero contiene a la variable independiente (concentración), que se supone no aleatoria y conocida al registrar la se½al analítica; el segundo incluye un conjunto de muchos factores, cada uno de los cuales influye en la respuesta sólo en peque½a magnitud, y que, se engloban en la perturbación o error aleatorio. El modelo de regresión es por tanto: yi = α + βxi + ei, donde yi y ei son variables aleatorias, xi es una variable predeterminada con valores conocidos y α y β son parámetros desconocidos. Las hipótesis que se establecen para el error aleatorio son: a) El error aleatorio tiene esperanza nula, es decir su media se hace cero: e= 1 n ∑ ei = 0 n i=1 b) La varianza del error es siempre constante, y no depende de la concentración, es decir, el error aleatorio es homocedástico: Var( ei ) = σ 2 c) El error está distribuido según una distribución Gaussinana para cualquier yi. d) Los errores aleatorios son independientes entre sí. Estos postulados se representan gráficamente en la figura 3. Figura 3. Hipótesis del modelo de regresión para la recta de calibrado. Estas hipótesis deberán comprobarse una vez construida la recta de calibrado. Sin duda, la hipótesis principal del modelo es aquella que plantea que la media de las distribuciones de y, para cada valor de x, varía linealmente al aumentar el valor de x. Esta hipótesis condiciona toda la construcción del modelo, por tanto, en la aproximación lineal se ha de tener presente el intervalo de concentraciones dentro del cual se van a hacer estimaciones y el peligro de extrapolar. La suposición de que los errores tengan media nula no será cierta cuando existan observaciones tomadas en distintas condiciones con respecto al resto. Este hecho puede detectarse mediante un análisis de residuos del modelo y es muy importante, ya que, una sola observación anómala puede tener una gran influencia en el modelo. La hipótesis de homocedasticidad no se cumplirá si la variabilidad de cada distribución depende de la media de dicha distribución. Así, a bajos niveles de concentración, se puede tener una variabilidad más limitada en la se½al analítica, mientras que a mayores niveles de concentración, las desviaciones de la ley de Lambert Beer o factores de filtro interno cobran más importancia, existiendo más variabilidad entre las muestras. Estimación de los coeficientes de regresión por mínimos cuadrados En el método de mínimos cuadrados la función objetivo a minimizar, a partir de la cual se obtienen los coeficientes de la regresión, es el sumatorio de los residuales al cuadrado, es decir: n Minimizar 2 a,b ∑ ( y - (a + b x ) ) i i i=1 Igualando a cero las derivadas parciales de la función objetivo respecto a ambos coeficientes, ordenada en el origen y pendiente, se obtienen las ecuaciones normales de la regresión: ∑ y i = na + b ∑ xi ∑ y i xi = a ∑ xi + b ∑ xi2 Dividiendo por n la primera resulta: y = a + b x , lo que indica que la recta de regresión siempre contiene el punto ( x , y ). Dividiendo también por n la segunda resulta: y - x = a x + b x 2 , que al restarse a la primera ecuación normal resulta la expresión que permite calcular la pendiente: ∑ yi xi ∑ xi2 - x y = b( - x 2) n n el término de la izquierda es la covarianza entre ambas variables y el que multiplica a la pendiente es la varianza muestral de x, sx2, por tanto, la pendiente estimada es proporcional a la covarianza entre ambas variables, expresándose como: b= Cov(x, y) 2 sx La ordenada en el origen se obtiene inmediatamente si tenemos en cuenta que la recta de calibrado pasa por el punto medio, la obtención de la ordenada en el origen es inmediata, ya que: a = y - b x. Las ecuaciones normales de la regresión pueden escribirse como: n ∑ r =0 i i=1 n ∑r x =0 i i i=1 que nos indican que los n residuos no son independientes y al existir dos ecuaciones de restricción entre los residuos hay n-2 grados de libertad. Por tanto, la varianza de la estimación es: 2 yx s = ∑ r i2 n-2 El coeficiente de la determinación del modelo es la medida más adecuada de la bondad del ajuste, que se define como la proporción de variabilidad explicada, es decir: ^ 2 VarianzaExplicada ∑( yi - y ) = r = VarianzaTotal ∑( yi - y )2 2 a) si la regresión entre x e y es exacta existe, por tanto, una total dependencia entre ambas variables entonces íi = yi y r2 = 1. b) si no existe relación lineal entre ambas variables íi será próximo a y-, y r2 será peque½o e incluso nulo. No obstante, el criterio principal para juzgar un modelo es estudiar si las hipótesis que se han realizado al construirlo son ciertas. En este sentido, es de gran utilidad, una vez realizada la regresión, el análisis de los residuos (figura 4), ya que con él comprobaremos: a) Si su distribución es aproximadamente normal (por supuesto se requiere un elevado número de observaciones). b) Si su variabilidad es constante, y no depende de x o de otra causa asignable. c) Si presentan evidencia de una relación no lineal entre variables. d) Si existen observaciones anómalas. La observación de los residuos, tanto de su forma como de la proximidad entre el número de residuos positivos y negativos, pone de manifiesto si la regresión es homocedástica o heterocedástica. En cuanto a la estimación y su error, es preciso que las bandas de dispersión de la recta y de la estimación sean lo más estrechas posible (figura 5). Figura 4. Distribución de residuos a la recta de mínimos cuadrados. Figura 5. Bandas de dispersión de la recta de regresión y de la estimación. La elipse: región de confianza conjunta de la pendiente y la ordenada Los intervalos de α y β para un nivel de confianza del 95%, establecidos anteriormente, se han calculado de forma independiente, pero no se puede asegurar con el mismo nivel de confianza que α y β se sitúen, simultáneamente, en los extremos de los intervalos calculados en su estimación. Las estimaciones a y b son dependientes entre sí. Errores por exceso en la pendiente producirán errores por defecto en la ordenada, y viceversa. Esta dependencia disminuirá con el valor de x y con los factores que contribuyen a estimar la pendiente con más precisión. De esta forma, al representar los valores de a frente a b para repetidas muestras aleatorias, se obtiene una elipse (Figura 6) en torno al centro verdadero (α, β), y a la inversa, en el que los extremos del intervalo conjunto para un nivel de confianza del 95% son ligeramente superiores que los de los intervalos independientes (el estadístico t(0.05,n-2) a dos lados, se debe reemplazar por 2 F (0.05,2,n- 2) de un lado). En una recta de calibrado, la construcción de la elipse es interesante en el estudio de los intervalos de confianza de la pendiente y ordenada teniendo en cuenta la covarianza existente entre éstas. Pero, es de especial relevancia en la comparación de métodos analíticos, ya que, esta herramienta pone de manifiesto la existencia de diferencias significativas en la capacidad de estimación a diferentes niveles de concentración. Figura 6. Región de confianza conjunta para la pendiente y ordenada. Validación de un método analítico en estudio con uno de referencia Cuando se quieren comparar la concentración estimada por dos métodos analíticos a diferentes niveles de concentración, se prepara un conjunto de muestras en las que la concentración de analito varía en el intervalo de valores más frecuentes que van a encontrarse en la práctica, y se analizan con los dos métodos que se pretenden comparar. Los errores más comunes que pueden obtenerse cuando el conjunto de muestras se analiza por dos métodos, pueden ponerse de manifiesto mediante técnicas de regresión. La ausencia de todo error en los datos se manifestaría mediante la obtención de una línea recta de pendiente unidad y ordenada en el origen cero, tal como muestra la línea discontinua de las figuras7, 8 y 9. La presencia de un error sistemático proporcional llevaría a la obtención de una recta, representada en la figura 7, con pendiente distinta a la unidad pero ordenada nula, mientras que la presencia de errores sistemáticos constantes conduciría a la obtención de una recta con una ordenada en el origen distinta de cero (figura 8). Los errores aleatorios, que acompañan siempre a todo tipo de resultados, darían lugar a una dispersión de los puntos experimentales alrededor de la línea de regresión, afectando al valor del coeficiente de determinación. De este modo, la presencia de los tres tipos de errores mencionados, aleatorios, sistemáticos constantes y sistemáticos proporcionales daría lugar a la recta de la figura 9. Figura 7. Validación de un método en el que se presentan errores sistemáticos proporcionales. Figura 8. Validación de un método en el que se presentan errores sistemáticos constantes. Figura 9. Validación de un método en el que se presentan errores sistemáticos constantes, sistemáticos proporcionales y aleatorios. El análisis de regresión parece el más indicado para detectar y cuantificar este tipo de errores. La técnica de regresión lineal por mínimos cuadrados es la que normalmente se utiliza, pero hay que señalar que, desde el punto de vista estadístico, existe una diferencia notable cuando dicha técnica se aplica a la calibración o cuando se utiliza, como en esta ocasión, para comparar dos conjuntos de resultados obtenidos experimentalmente. Este hecho es debido a que, en este último, caso ninguno de los dos conjuntos de datos está libre de error, por lo que se tendrían que aplicar técnicas de regresión que contemplen la presencia de errores en ambos ejes de coordenadas x e y. Como lógicamente nunca estamos en el caso ideal de que la pendiente sea exactamente igual a uno y la ordenada en el origen dé un valor exacto de cero al estar siempre presentes los errores aleatorios, es preciso dilucidar si los valores obtenidos no son significativamente distintos de uno y de cero, respectivamente. Esto se hace mediante la construcción de la región conjunta de confianza para la pendiente y la ordenada en el origen que, como es sabido, da como resultado una elipse (figura 6). Si el punto de pendiente unidad y ordenada en el origen nula está contenido dentro de la región delimitada por la elipse significa que no existen diferencias estadísticamente significativas entre ambos métodos para un nivel de confianza elegido, es decir, pueden considerarse iguales las concentraciones estimadas por ambos métodos. Si por el contrario el punto (1,0) está situado fuera de la elipse se concluye que, para ese nivel de confianza, existen diferencias significativas entre las concentraciones obtenidas por cada uno de los métodos.