Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 1 de 26 QUIMICA ANALÍTICA Y CALIDAD ¿Que es la Química Analítica? ¿Cómo se relaciona con la calidad? Según el Prof. Dr. Miguel Valcárcel: La Química Analítica es una ciencia metrológica que desarrolla, optimiza y aplica herramientas (materiales, metodológicas y estratégicas) de amplia naturaleza, que se concretan en procesos de medida encaminados a obtener información (bio)química de calidad, tanto parcial (presencia /concentración en muestra de especies-analitos (bio)químicos) como global sobre materias o sistemas de amplia naturaleza (química, bioquímica, biológica) en el espacio y en el tiempo para resolver problemas científicos, técnicos, económicos y sociales". De acuerdo a esta definición puede resaltarse la importancia de la palabra Información que se relaciona íntimamente con la trazabilidad. La calidad es atribuible al proceso analítico el que puede evaluarse a través de la capacidad de resolver un determinado problema analítico. La información de calidad debe ser lo más veraz posible (aproximada al valor verdadero) para que la toma de decisiones sea adecuada, esto es: fundamentada, eficaz y a tiempo. Las propiedades analíticas indican calidad y se las agrupa de acuerdo a tres grupos: Propiedades supremas: exactitud y representatividad. Propiedades básicas: precisión, sensibilidad, selectividad y muestreo. Propiedades complementarias: Propiedades Analíticas Supremas Exactitud Puede definirse como el grado de concordancia entre el resultado de una determinación o la media de n resultados y el valor verdadero del analito en la muestra. La exactitud se relaciona matemáticamente al error sistemático, que consiste en una diferencia con un signo fijo: (+) por exceso o (-) por defecto. Puede expresarse en forma absoluta o de forma relativa %. La exactitud puede referirse a solo un resultado; en este caso es la diferencia entre dicho resultado y el valor verdadero. También puede asociarse a un método, para esto se utiliza la media de los n resultados obtenidos para el mismo método aplicado a distintas alícuotas de la misma muestra. En este caso el error sistemático suele denominarse de distintas maneras: bias cuando n<30 y veracidad relativa cuando n>30. 1 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 2 de 26 El concepto de exactitud (errores sistemáticos) difiere del de precisión (errores aleatorios). No obstante, en la práctica la exactitud no puede definirse correctamente sin tener en cuenta la precisión (incertidumbre). Representatividad Esta propiedad se refiere al buen muestreo. Se trata de encontrar una concordancia adecuada entre los resultados y el conjunto compuesto por la muestra, el objeto, el problema analítico y la necesidad económica, social, científica y técnica. Propiedades Analíticas Básicas Precisión Es el grado de concordancia entre un grupo de resultados que se obtienen al aplicar repetitiva e independientemente el mismo método analítico a alícuotas distintas de la misma muestra. De esta manera salta a la vista la dispersión de resultados entre sí y con respecto a su media. La precisión se relaciona inmediatamente con los errores aleatorios o indeterminados. La disciplina denominada “Quimiometría” soporta matemáticamente a la precisión. La precisión es aplicable a un resultado individual, al conjunto de resultados y a la media de los mismos. Cuando se relaciona a un resultado individual coincide con el error sistemático y puede ser aleatoriamente por exceso o por defecto. Las magnitudes que caracterizan la precisión de un conjunto de resultados se basan en los parámetros estadísticos basados en las distribuciones normales o gaussianas. El más característico y utilizado es la desviación estándar, sus unidades son las mismas que acompañan a los resultados de la propiedad medida. n < 30 n > 30 La desviación estándar suele expresarse también en forma relativa: en tanto por uno (desviación estándar relativa) o por ciento (coeficiente de variación). 2 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 3 de 26 n < 30 n > 30 La varianza se define como el cuadrado de la desviación estándar y es de gran interés práctico debido a su aditividad, que facilita el cálculo de la propagación de errores. La precisión puede adjudicársele también a la media del conjunto de resultados, ya que de resultados (población con media ) pueden hacerse grupos de los mismos y las medias serán diferentes entre sí. Estas diferencias se describen en la desviación estándar de la media. El cálculo de la precisión debe estar acompañado de la información lo mas completa posible de la experimentación desarrollada, esto es, conocer si el operador, los instrumentos, aparatos, reactivos, estándares, tiempo, han sido los mismos o diferentes. Mientras más diferentes sean las condiciones experimentales, mayor serán las causas de variabilidad, la dispersión del conjunto de resultados será mayor y por lo tanto menor la precisión. Es lo mismo decir que deben tenerse en cuenta los conceptos de repetibilidad y reproducibilidad. ISO define la repetiblidad como la dispersión de resultados de ensayos mutuamente independientes, utilizando el mismo método aplicado a alícuotas de 3 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 4 de 26 la misma muestra, en el mismo laboratorio, por el mismo operador, usando el mismo equipamiento en un intervalo corto de tiempo. Es una medida de la variabilidad (varianza) interna y un reflejo de la máxima precisión que el método pueda alcanzar. En cambio la reproducibilidad, según ISO, es la dispersión de resultados de ensayos mutuamente independientes utilizando el mismo método aplicado a alícuotas de la misma muestra en diferentes condiciones: distintos operadores, diferente equipamiento o diferentes laboratorios. La reproducibilidad necesita una especificación de las diferentes condiciones experimentales, las más frecuentes son: entre días, entre operadores y entre laboratorios. De esta forma, la repetibilidad implica la mínima dispersión (máxima precisión) y la reproducibilidad la máxima dispersión (mínima precisión) de un mismo proceso analítico. Sensibilidad Es una propiedad analítica asignable a un método analítico, que expresa su capacidad para discernir entre concentraciones semejantes de un mismo analito, o su capacidad para poder detectar o determinar pequeñas concentraciones de analito en una muestra. La definición más general de la sensibilidad es la pendiente de la curva de calibrado. La anterior definición se completa introduciendo los parámetros que definen las concentraciones mínimas para ser detectadas o determinadas. Esto es: el límite de detección es la concentración de analito que origina una señal que puede diferenciarse estadísticamente de la señal del blanco. Selectividad Un método analítico se dice que es selectivo si es capaz de originar resultados que dependan exclusivamente del analito para su cuantificación. El grado de selectividad es inversamente proporcional al grado de interferencia. Interferencias son perturbaciones que alteran una, varias o todas las etapas del proceso analítico y por consiguiente a los resultados analíticos, que se ven afectados por errores sistemáticos. De acuerdo a esto se deduce que la selectividad está directamente relacionada con la exactitud. Propiedades Complementarias Rapidez 4 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 5 de 26 Se refiere al tiempo de análisis que generalmente se expresa como frecuencia de muestreo, es el número de muestras que se procesan de forma completa por unidad de tiempo. Es una propiedad de gran trascendencia práctica para resolver problemas analíticos, ya que una información analítica suministrada a destiempo es inútil y por lo tanto de mala calidad. Costos Es el valor económico de cada análisis, su importancia es obvia pues se relaciona directamente con la productividad del laboratorio. Otras propiedades que están relacionadas con el factor humano son las relacionadas con la segundad del operador, del personal del laboratorio y del medio ambiente. Además, los relacionados con la comodidad del personal del laboratorio esto es: evitar tareas tediosas o que impliquen stress y de propiciar la creatividad, competitividad y estímulo técnico y económico. INCERTIDUMBRE Y VERACIDAD Al aplicar un proceso analítico a n alícuotas de una misma muestra se obtienen n resultados o datos. Es evidente que el nivel de información será de mayor calidad cuanto mas grande sea n. La incertidumbre genérica de la concentración o porcentaje de un analito en una muestra es la máxima duda y corresponde a la incertidumbre específica total, que oscila entre el O y 100 %. El valor verdadero ( X̂ ), tiene una incertidumbre específica nula, que coincide con la ausencia total de duda acerca del porcentaje de analito en la muestra. Esto desde luego corresponde a la calidad total. La incertidumbre específica parcial se concreta en un intervalo (± U) en el que se encuentran el analito en la muestra que está alrededor de un dato concreto. La máxima expresión de la Incertidumbre especifica parcial es la que tiene un solo resultado (xi), ya que de por sí no indica ningún intervalo. La media de n < 30 resultados ( x ) posee una incertidumbre ( ± U x ) deducida de la estadística, al igual que la media ( ' ) de n > 30 resultados posee una incertidumbre (± U '). La incertidumbre se reduce al aumentar n, así los valores de x y ' se acercan al valor verdadero. El valor de referencia considerado como verdadero ( X̂ ) disminuye notablemente su incertidumbre genérica, pero la incertidumbre específica (U X̂ ) puede ser mayor o menor que la de U ', debido a que se ha obtenido por n' laboratorios al analizar cada uno un número de alícuotas de la misma muestra y las causas de la variabilidad son mucho mas acusadas. 5 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 6 de 26 La Incertidumbre específica está relacionada con la precisión, mientras que el concepto de incertidumbre genérica tiene una doble relación con la exactitud y la precisión. La veracidad absoluta o total coincide con el valor verdadero ( X̂ ). que es el máximo nivel de calidad. El concepto de veracidad está directamente relacionado con la exactitud, aunque también indirectamente con la precisión. ERRORES EN EL ANÁLISIS QUÍMICO Los errores en Química Analítica indican las diferencias entre el valor verdadero (el considerado como verdadero) y un resultado individual o medias de resultados. Existen tres tipos de errores clasificados: aleatorios, sistemáticos y crasos. Los errores aleatorios o indeterminados obedecen a fluctuaciones típicas de la experimentación. Se presentan cuando se efectúan varias determinaciones del mismo analito en alícuotas de la misma muestra o cuando se realiza varias veces una misma medida con el mismo instrumento. Pueden tener diferente magnitud, aunque en general no muy elevada. Pueden ser aleatoriamente por exceso (+) o por defecto (-) es decir, mayores o menores que la media. Se describen de acuerdo a la distribución normal de Gauss. Constituyen la base para la propiedad analítica básica precisión y, por tanto, de la incertidumbre específica. Los errores sistemáticos o determinados son debidos a las alteraciones operacionales bien definidas en el proceso analítico, ej.: presencia de interferntes, filtración incompleta, contaminación y pérdidas por adsorción en análisis de trazas, reactivo o patrón deteriorado, etc. Afectan a la propiedad analítica exactitud. Debido a su causa, estas desviaciones son de un signo determinado, por exceso (+) o por defecto (-). Cuando la magnitud es elevada se denominan errores crasos. Estos errores pueden ser constantes (no dependen del nivel de concentración del analito) y proporcionales (cuando dependen de él).Pueden atribuirse a un resultado aislado o a un método, de allí que toma diferentes denominaciones: a) Exactitud cuando se refiere a un resultado, en este caso se trata de la diferencia entre dicho resultado y el valor considerado como verdadero: xi Xˆ . b) Bias o sesgo cuando se refiere aun método con el que se han realizado menos de 30 determinaciones: x Xˆ . c) Veracidad relativa cuando se refiere aun método con el cual se han realizado X̂ . mas de 30 determinaciones: 6 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 7 de 26 Los errores crasos o espurios poseen características básicas semejantes a los errores sistemáticos pero su magnitud es notablemente superior. Son bastante fáciles de detectar y así eliminar su causa. LEY DE PROPAGACION DE ERRORES En muchos casos un mensurando no es obtenido de una manera directa sino que resulta de una relación funcional con otros mensurandos que obviamente tambien están afectados de error o incertidumbre. Esos errores pueden acumularse o compensarse. A esto se denomina propagación de errores que puede describirse de acuerdo a la siguiente expresión: donde: z f(x1 , x 2 ) x 1 y x 2 son variables independientes Puede mostrarse que: 7 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 8 de 26 Las varianzas son aditivas cuando las variable independientes se suman mientras que se usan las desviaciones estándar al cuadrado cuando, se trata de una multiplicación o división. Es importante resaltar que las variables no, deben estar correlacionadas (independientes), esto a menudo puede no suceder en situaciones prácticas. Los errores sistemáticos se propagan con sus signos. Si z es el error sistemático que afecta a z, la relación para una suma o una resta es: 8 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 9 de 26 Donde x1 es el error sistemáticos que afecta a x1, x2 a x2, ... etc. A diferencia de los errores aleatorios que se acumulan, los errores sistemáticos pueden compensarse. Para la multiplicación y la división tenemos que: Las ecuaciones ya descriptas tienen una gran importancia en metrología, debido a que ellas permiten describir las distintas fuentes de error individuales y combinarlos para expresar la incertidumbre. Cifras Significativas: las cifras significativas de un dato o de un resultado son todos los dígitos relevantes que sean fiables, más el primero que esta afectado por la incertidumbre. Así por ejemplo si se obtuvo un promedio a partir de un conjunto de datos: x = 7,45673113 para expresarlo con el número de cifras significativas correctas hay que observar la desviación estándar, ej. si s= 0,05844 decimos que la incertidumbre esta en la segunda cifra decimal, entonces expresamos el promedio x = 7,45. El redondeo es una operación frecuente cuando la cifra sometida a la incertidumbre es seguida por otras. Si la más próxima es 5, se aumenta el dígito; si es > 5 el dígito no sufre alteración. Al realizarse las operaciones básicas de suma, resta multiplicación y división con datos que poseen diferentes número de cifras significativas, existen dos reglas generales: 1. 2. El resultado final no debe tener más cifras significativas que el dato inicial que tenga menos cifras significativas. No deben redondearse los datos iniciales, esto debe efectuarse en el resultado final. 9 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 10 de 26 PARÁMETROS ESTADÍSTICOS USADOS EN EL TRATAMIENTO DE DATOS ANALÍTICOS La estadística aplicada a los datos químico-analíticos es una parte de la multidisciplina denominada QuimiometrÍa, cuyo objetivo es ampliar y mejorar la información analítica con ahorro de tiempo y esfuerzo. La Cualimetría está integrada por la Quimiometría, la Informática y la Calidad. La estadística es un soporte de las propiedades analíticas, en especial de: la representatividad (reglas de toma de muestra), exactitud (trazabilidad), precisión (incertidumbre), sensibilidad (límites de detección), etc. Parámetros estadísticos estimativos del valor central ¿Que es la Media Aritmética? Si se realiza una serie de n mediciones, obteniéndose los resultados x1, x2, ... xn la media aritmética se denota x y se calcula dividiendo la suma de observaciones por el número de las mismas: La media aritmética, como estimación del valor verdadero de la población, , es un parámetro estadístico poco robusto, es decir, si alguno de los resultados individuales, xi , contiene un error apreciable, éste también se transmite de una manera importante a la media aritmética calculada. Si se consideran el conjunto de resultados: 54 54 54 55 58 62 63 64 64 65 la media aritmética es x = 59.3 10 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 11 de 26 Poblaciones y muestras Población Muestra n (n < 30) n < 30 Media aritmética Desviación estándar x S Supongamos que hemos determinado la concentración de hidratos de carbono en diez sachets de leche, seleccionadas aleatoriamente, de una dada marca comercial. Los diez sachets constituyen una muestra en el sentido estadístico. Ellos son una muestra de la población de todos los sachets de leche de esa misma marca. En el caso de las mediciones, si nosotros hiciéramos, por ejemplo, ocho determinaciones replicadas de carbono en un cierto material acerado, estas ocho observaciones individuales constituyen una muestra, en este caso de una población de todas las determinaciones de carbono que podrían haber sido hechas con la misma técnica de medición sobre la matriz específica si ella puede ser obtenida Ilimitadamente. La población de mediciones consiste en todas aquellas que puedan ser hechas, y un grupo de experimentos se considera una muestra de esa población. Las poblaciones son a menudo muy grandes (número de sachets) o infinitas (número de determinaciones). Aunque el número de sachets existentes puede ser considerado finito, deberá ser tratado como infinito. Pocas veces los textos de estadística hacen distinciones entre poblaciones infinitas y finitas, pero en casi todos los casos la población será considerada como un número infinito de individuos, objetos, mediciones y se investigará una muestra finita de ella para obtener conclusiones sobre la población. Distribución normal Al efectuarse un gran número de mediciones repetitivas, los resultados podrán visualizarse fácilmente mediante histogramas. En este tipo de gráfico, se representa el intervalo de resultados considerados como las bases de rectángulos, mientras que las alturas son proporcionales a las frecuencias con las que se obtienen dichos resultados. Veamos la siguiente tabla donde se expone la concentración de Pb en un efluente industrial en ng/L: 4729 9618 8343 6167 6971 6895 7172 5194 5121 9674 6764 10337 6789 4453 9097 3548 7401 5935 5093 5457 8582 6987 3752 7024 6202 3749 5693 6873 8560 5112 11 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 12 de 26 8572 11788 3542 6110 4318 6751 5960 7699 6867 7671 10073 7096 2267 7834 7479 7322 4393 7015 6409 4264 5687 8924 4044 5847 6946 5994 7030 6764 6644 7878 Su histograma representativo es: 16 14 12 Frecuencia 10 8 6 4 2 0 2000 4000 6000 8000 10000 12000 Clases Si se llevan a cabo un número mucho mayor de repeticiones y se representasen los intervalos de resultados mucho más reducidos, los histogramas se aproximarán a la curva representada con línea continua. En el caso de considerar en el eje de las ordenadas las frecuencias relativas, la curva, que recibe el nombre de función de densidad de probabilidad, englobará una área igual a 1 cumpliéndose: Campana de Gauss 12 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 13 de 26 Muchos estudios indican que al repetir mediciones de un mismo parámetro, la función de probabilidad obtenida sigue el modelo de distribución Normal o Gaussiana. El teorema del límite central proporciona el fundamento estadístico que permite esperar dicha tendencia de los datos químico-analíticos. La ecuación de la curva viene dada por: que se traduce gráficamente en la campana de Gauss. La notación nos dice que los valores de x están distribuidos normalmente con un promedio una varianza 2. Distribuciones gaussianas con diferentes medias e igual dispersión. 13 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar y Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 14 de 26 Distribuciones gaussianas con igual media pero varianza diferente. Para cualquier distribución Gaussiana, independientemente del valor que posean y se cumple que: La desviación estándar, , mide la distancia desde la media hasta el punto de inflexión de la curva. El 95% de los valores están comprendidos en el intervalo ± 1.960 El 99% de los valores están comprendidos en el intervalo ± 2.576 . El 99% de los valores están comprendidos en el intervalo ± 3.290 . Muchos tratamientos estadísticos requieren para su simplificación, la estandarizar de las variables, con el fin de independizarse de las unidades de medida. Una forma bastante corriente de llevar a cabo este proceso,m consiste en la conversión de la variable x en z, de tal forma que: La nueva variable z tiene la propiedad de que su valor medio es z = 0 y su desviación estándar es sz = 1. De esta manera, z también está normalmente distribuido: z ≈ N(0,1). La función probabilidad para la distribución normal estandarizada está dada por: 14 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 15 de 26 Debido a que en tiempos antiguos no existían las computadoras ni las calculadoras automáticas, es muy común encontrar en los textos de estadística tablas con valores para la función distribución normal estandarizada. Las tablas suelen presentarse de distintas maneras, pueden ser de una cola o de dos colas. Esta última muestra que parte del área total cae dentro o fuera del intervalo (-z, +z). La Tabla 1 (ver ANEXOS al final de este apunte) da los valores de z correspondientes a las áreas sombreadas mostradas sobre la misma tabla. Así podríamos preguntamos, cuál es el valor de z para que el 5% de todos los datos distribuidos normalmente caigan fuera del intervalo (-z, +z); la respuesta es el 2,5% de cada lado. En la tabla podemos encontrar que para p = 0,05; z = 1,96. Área sombreada = 5 % (2.5 % para cada lado) (p = 0.05) Vayamos ahora a la popular planilla de cálculo Excel. ¿Como resolvemos la anterior cuestión? Cargamos la planilla y dentro del menú Funciones Estadísticas elegimos DISTR.NORM.ESTAND.INV (distribución normal estándar invertida), se nos presentará la siguiente imagen: 15 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 16 de 26 En la casilla de diálogo ingresamos el valor 0.025 a lo que la planilla nos devuelve -1.95996... , ¿que significa esto? Representemos esto gráficamente. Veamos el gráfico de abajo. -z z El área sombreada representa en este caso al 2.5% del área total bajo la curva, es decir una probabilidad = 0.025. Esta función de Excel nos muestra un área que va desde z = a z = -1.96 (probabilidad = 0.025). Lo mismo es decir que se 16 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 17 de 26 espera que el 2.5 % de los datos sean inferiores a z = -1.96. Si bien este es el valor de z para el semintervalo izquierdo, el mismo valor con distinto signo se espera para el semintervalo derecho, ya que la campana es simétrica. De la misma manera podemos preguntar entre que límites podemos encontrar el 90% de todos los valores. Desde la tabla para p= 0.1, z= 1.65. Utilizando DISTR.NORM.ESTAND.INV en Excel, ingresamos 0.05 en el cuadro de probabilidad a lo que la planilla arroja el valor –1.644853 Ejemplo: Supongamos que una fábrica de autopartes produce piezas cuya masa presenta una distribución normal con = 5.00 g y = 0.05 g y queremos saber entre que valores se encontraran el 95% de los resultados. Dicho intervalo se calcula: (5.0 ± 1.96 x 0,05); el intervalo es (5.1 - 4.9). ¿Por qué es esto así? La Tabla 2 da las áreas entre dos límites, un límite es z = 0 y el otro es un dado valor de z positivo. Ejemplo: un buen número de determinaciones son efectuadas en una misma muestra y los resultados están normalmente distribuidos con = 215 y = 35. Qué % de determinaciones estarán dentro de los límites 200 y 250 ?. z1 = (200 - 215) / 35 = -0,43 z2 = (250 -215) / 35 = 1 Según la tabla 2, el área entre z = 0 y z = 0,43 es 0.166 ( 17%), y entre z = 0 y z = 1 es de 34%. Se concluye que el 51% de los datos están comprendidos entre 200 y 250. Resolvamos esto con Excel: Tomemos la función estadística DISTR.NORM.ESTAND (Distribución Normal Estándar) e insertemos en su cuadro de diálogo los valores de z1 y z2, 17 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 18 de 26 obtendremos: 0.336 para z1 y 0.841 para z2, si restamos ambos valores obtenemos 0.508 ( 51%). Esto es: la función DISTR.NORM.ESTAND es acumulativa, calcula el valor de la probabilidad desde:. A z = - hasta z = -0.43 (0.336) 18 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 19 de 26 B y luego desde z = - hasta z = 1 (0.841) C=B-A La diferencia (0.508) nos da que el 51 % de las determinaciones caerá en el intervalo sombreado. La Tabla 3 es de una cola. Ejemplo: supongamos que para los mismos datos dados anteriormente, queremos saber cuál es la probabilidad de encontrar un resultado mayor que 250. Como z = 1, de la tabla obtenemos el valor p = 0,84. Esta es la probabilidad de encontrar un valor menor que z = 1; es decir que para valores mayores la probabilidad será 1 - 0.84 = 0.16 (16%). Este problema puede resolverse también con Excel tomando la función estadística DISTR.NORM.ESTAND, insertando el valor de z = 1 obtenemos p = 0.84. Como vimos en la gaussiana A y B anteriores esta es la probabilidad de obtener valores inferiores a 250, por lo tanto la probabilidad de obtener valores mayores es complemento, es decir 16 %. Las Tablas 1, 2 y 3 y las funciones estadísticas de Excel (DISTR.NORM.ESTAND y DISTR.NORM.ESTAND.INV) contienen la misma información y podríamos haber usado cualquiera de ellas en los diferentes ejemplos. 19 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 20 de 26 Intervalos de confianza La técnica de la estimación confidencial consiste en asociar a cada muestra un intervalo que se sospecha que debe contener al parámetro de interés. A éste se le denomina intervalo de confianza Evidentemente esta técnica no tiene porqué dar siempre un resultado correcto. A la probabilidad de que hayamos acertado al decir que el parámetro estaba contenido en dicho intervalo se la denomina nivel de confianza. También se denomina nivel de significación a la probabilidad de equivocarnos. Para una distribución normal el 95% de los datos (es decir el 95% del área bajo la curva) cae dentro de los límites z = -1.96 a z = 1.96. Puede decirse que el 95% de los datos estarán dentro de los límites: 1.96 Esto es verdadero para todas las distribuciones normales, como los promedios de las muestras están también normalmente distribuidos, será entonces también verdadero para las distribuciones de los promedios. Se puede establecer que el 95% de todos los promedios de la muestra de tamaño n caen dentro de los límites: Supongamos que tomamos una muestra de tamaño n de una población, efectuamos n mediciones y calculamos x . Este x es un estimador de (media de la población). Supongamos que se conoce . Podemos decir que hay una probabilidad del 95 % de que x esté comprendido en el rango: Es decir: 20 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 21 de 26 Existe 5% de probabilidad (área sombreada) de que x , Ia media de una muestra de n resultados, tenga un valor mayor que 1.96 n . Esto nos dice que es posible estimar (obviamente desconocido). Para lo cual, debe determinarse x para n mediciones y a la vez expresando la incertidumbre correspondiente a la estimación. Esto puede describirse mediante la ecuación: = x 1.96 n el valor medio de la población esta comprendido en este intervalo con un 95 % de seguridad, certeza o confianza. De una manera general puede escribirse = x z n con 100 – % de probabilidad por ejemplo: ¿como sería la ecuación para un 90 % de confianza o un Rta: 21 = x ? 1.645 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar n Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 22 de 26 Los límites de esta ecuación = x son denominados Límites de n Confianza. El intervalo entre dichos límites es el llamado Intervalo de Confianza. Estos límites o intervalos pueden establecerse en %, ej. 95 % ó como fracciones 0,95. z Pensemos en el siguiente ejemplo: Se ha sido analizado un cierto material y se ha obtenido el resultado 14.25 0.10 donde 0.10 describe el intervalo de confianza del 95%. En otras palabras, 14.25 es una estimación del valor desconocido y existe un 95% de probabilidad que el intervalo (14.15 –14.35) contenga a . Supongamos que el resultado no le resulta satisfactorio a nuestro cliente. El desea un intervalo de confianza menor (para el 95%), por ejemplo 0.05. ¿De que manera puede alcanzarse ese valor? El 0.10 ha sido calculado con: 1.96 n 0.10 es típica del proceso de medición, podría considerarse constante para dicha población. Nos queda solo n para cambiar, ahora llamaremos N al tamaño de muestra necesaria para obtener un intervalo de confianza menor: 1.96 N 0.05 De ambas ecuaciones obtenemos que: N=4n Así, deducimos que aumentando el tamaño de la muestra podemos hacer más estrecho el intervalo de confianza. Debido a la dependencia de n , el n requerido para obtener ciertos limites de confianza podrían ser poco prácticos en muchas situaciones experimentales. La notación puede ser generalizada escribiendo que el intervalo de confianza (1- )100% alrededor de la media está dado por: x z 2 22 n Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 23 de 26 El significado del parámetro para una distribución normal estandarizada se observa en la figura de abajo. El hecho de usar 2 significa que el intervalo es de dos colas. Es decir si = 5%. Los limites serán 2.5% para cada lado. 0 z z 2 2 Curva de Distribución Normal Estandarizada con el parámetro La ecuación dada para el límite de confianza incluye a , el cual es un parámetro de la población. Cuando n 30 el valor obtenido de s puede resultar una buena estimación de , así puede expresarse para el intervalo de confianza (1 - )100%: = x s z 2 n para n 30 ¿Qué sucede cuando n < 30 ?, s ya no es un buen estimador de . Ahora se hace necesaria una corrección: debe reemplazarse z por t: = x s t 2 n para n < 30 Los valores de t son derivados de una tabla de distribución de t, comúnmente denominada "t de Student". Ver Tabla 4 en ANEXO. Muchas veces se incluye en la notación el número de grados de libertad para el cual se ha determinado t. 23 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 24 de 26 = x t , n 1 2 s n Comprobación de la normalidad de una distribución A menudo, cuando se manipulan datos químicos, puede ser necesario chequear si tales datos se comportan de acuerdo a una Distribución Normal. Esto puede ser particularmente importante si necesitamos justificar la utilización de inferencia paramétrica en la evaluación de los datos (temas que desarrollaremos adelante) Para tal fin pueden considerarse métodos gráficos (Probabilidad Normal) y pruebas estadísticas formales (Pruebas de: Kolmogorov-Smirnov, Lilieforts, Shapiro-Wilks, Ryan-Joiner y Anderson-Darling). Numerosas pruebas estadísticas sólo son válidos si los conjuntos de datos que se tratan siguen una distribución Gaussiana. Existen dos conceptos, la asimetría (skewness) y la curtosis (kurtosis) que describen desviaciones respecto de la distribución normal. La asimetría indica el sentido en que se inclina la distribución, es decir, la existencia o carencia de simetría en relación a un eje vertical trazado por la media aritmética. Son diversos los coeficientes de asimetría definidos y si bien una prueba de asimetría no superado indica que han de extremarse los cuidados al aplicar la estadística Gaussiana, una prueba superada no prueba necesariamente que la distribución sea normal. También existen distintos coeficientes de curtosis que miden la agrupación de los resultados en torno a la media. Cuando la distribución no es normal Cuando se demuestra que un conjunto de resultados no sigue la distribución normal existen diversas posibilidades; en primer lugar se pueden llevar a cabo distintas pruebas estadísticas que permitan indicar la presencia de observaciones discrepantes (outliers), en segundo lugar se pueden intentar una transformación 24 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 25 de 26 de los datos de tal forma que los resultados transformados se adecuen a una distribución normal. Si ambas posibilidades no resultan satisfactorias será incorrecto llevar a cabo pruebas pensadas para distribuciones de datos Gaussianos y se tendrán que intentar test no Paramétricos. Las transformaciones de datos no sólo se utilizan para llevar la distribución a la normalidad sino que también se usan para igualar las varianzas de distintos conjuntos de observaciones. Entre las más usuales figuran la transformación logarítmica, la extracción de la raíz cuadrada o la sustitución de los resultados por sus valores recíprocos. En un test estadístico no paramétrico, la muestra extraída de la población estadística debe cumplir con ciertas condiciones, mucho menos exigentes que en los test paramétricos, tales como la independencia de las observaciones. Los test no paramétricos deben aplicarse siempre que no se conozca exactamente la distribución de la población. Sin embargo, a menudo, se toleran desviaciones pequeñas de las condiciones impuestas en estas u otras condiciones de los tests paramétricos. Una de las ventajas más claras de los tests no paramétricos consiste en su facilidad de aprendizaje y aplicación. Existen tests no paramétricos para comprobar un gran número de hipótesis estadísticas, sin embargo no tienen una aplicación tan amplia como los tests paramétricos, así, no existen tests fiables de este tipo para comprobar la interacción entre conjuntos de datos en el análisis de la varianza. Veremos mas detalles hacia el final de este apunte. Valores discrepantes o outliers Los resultados discrepantes son aquellos que no pertenecen a un conjunto (muestra o población) o que existe una probabilidad inferior a un determinado valor de que pertenezcan a él. En realidad están presentes en el conjunto debido a una anomalía metodológica (error sistemático). Se denominan también dudosos, aberrantes, anómalos o outliers. Para discriminar estadísticamente los datos discrepantes de los valores extremos de un conjunto deben aplicarse test de aceptación / rechazo, con el objeto de garantizar una distribución normal o gaussiana al conjunto. La aceptación / rechazo de estos resultados afecta significativamente tanto a la media como a la desviación estándar, en especial cuando n es pequeño. Se han descrito diversos criterios para detectar resultados discrepantes, entre ellos citaremos: El criterio de Dixon y el criterio de los Límites de Confianza. Criterio de Dixon. Se basa en el recorrido: diferencia entre el valor más alto y el más bajo del conjunto, incluido el discrepante. El procedimiento es el siguiente: 1. Se ordenan los datos de menor a mayor. 2. Se identifica el valor sospechoso (Xq). Xq valor más próximo 3. Se calcula el valor de Qcal de la expresión: Qcal recorrido 25 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar Curso: “Elementos para la Validación de Métodos Analíticos” PARTE A Página 26 de 26 4. Se compara Qcal con un valor tabulado Qt (Tabla 5 en ANEXO) para un determinado nivel de significación (p) y un número de datos de conjunto. Si Qcal Qt el dato Xq debe rechazarse; si Qcal < Qt debe aceptarse. Criterio de los Límites de Confianza. El mecanismo es: 1. Se calcula x y s, incluyendo todos los datos. 2. Se deben delimitar los límites de confianza x t s n para una determinada probabilidad o nivel de significación. 3. Si el valor dudoso Xq no se encuentra en el intervalo, debe rechazarse y volver a calcularse los parámetros estadísticos. 26 Lic. Sergio G. Chesniuk http://www.metroquimica.com.ar