USO BÁSICO DE HOJA DE CALCULO EN CFGS LABORATORIO ANÁLISIS Y CONTROL DE CALIDAD 1. Introducción En la moderna formación profesional se potencia la formación en las nuevas tecnologías de la información y la comunicación (TIC’s) como un elemento de gran importancia dentro de las llamadas enseñanzas transversales, en consonancia con el auge de estas tecnologías en nuestro entorno social actual. Así, el análisis químico no es una excepción a este tendencia general de nuestra sociedad, y constituye una disciplina cuyas características la hacen muy susceptible de poder ser abordada desde esta perspectiva de aplicabilidad de las TIC’s. A nadie escapa ya el hecho de que hoy en día en los modernos laboratorios de análisis, además del instrumental clásico de vidrio y los equipos instrumentales de análisis (cromatógrafos, espectrofotómetros, etc.), existe otro equipamiento constituido por equipos informáticos con base de datos, hojas de cálculo y aplicaciones para gestionar el laboratorio. Concretamente, la Quimiometría, la disciplina de la Química que utiliza métodos matemáticos y estadísticos para diseñar o seleccionar procedimientos de medida y experimentos óptimos, y para proporcionar la máxima información química mediante el análisis de datos químicos, es especialmente compatible con este tratamiento. En este artículo se exponen las principales aplicaciones que la herramienta informática conocida como hoja de cálculo tiene en un laboratorio de análisis químico, enfocándolo sobre las enseñanzas que se imparten habitualmente en el CFGS de Laboratorio de Análisis y de Control de Calidad. En concreto, las instrucciones e imágenes usadas corresponden al software libre Openoffice.org Calc 2.3. En el laboratorio de análisis químico de un instituto donde se impartan estas enseñanzas, diariamente se realizan análisis de distintos tipos de muestras: agua, alimentos, cementos, derivados petrolíferos, productos industriales, etc. teniendo todos ellos en común la característica de ser medidas repetidas, esto es, se realiza un número de replicas de cada análisis que se estime conveniente (en función de la complejidad de la muestra, del método y técnica analíticos, etc.) para que el dato reportado tenga fiabilidad. Y es en este punto donde entra en juego la Quimiometría, la cual nos va a permitir saber rechazar datos anómalos discordantes de una serie, estimar la media y desviación estándar, límites de confianza, comparar una media experimental con un valor conocido, comparar dos medias experimentales, comparar datos emparejados, comparar desviaciones estándar, comparar varias medias, estimar la calidad de las medidas analíticas, métodos de calibración en análisis instrumental (regresión y correlación), diseñar y optimizar experimentos, etc. 1 La forma de presentar estas herramientas será mediante una rápida introducción al concepto que se trata (para un tratamiento más exhaustivo de los aspectos conceptuales se remite al lector a los numerosos textos existentes sobre esta materia) y su aplicación a ejemplos reales con las correspondientes instrucciones para su resolución mediante hoja de cálculo, acompañando cada ejemplo con imágenes ilustrativas que seguramente aclararán los procedimientos a realizar. 2. Media, desviación estándar, varianza y coeficiente de variación Media ( x ). El valor promedio (en forma abreviada la media –aritmética-) de un conjunto de datos es la suma de todas las medidas dividida por el número de medidas. Desviación estándar (s). Es una medida de la variabilidad, y es la suma de los cuadrados de las diferencias entre cada valor individual y la media dividida entre el número de datos menos 1: s= ∑(x i − x) 2 ( n − 1) i Varianza (s2). El cuadrado de la desviación estándar. Coeficiente de variación (CV). La relación expresada en % entre s y x . Ejemplo 1. Un estudiante repitió 5 veces una valoración para determinar el contenido en cloruros de una muestra de agua de pozo. Los resultados obtenidos fueron los siguientes (mL de AgNO3 consumidos): 10.07 10.12 10.08 10.11 10.13 Para su realización, colocamos en las celdas B2:B6 los datos numéricos anteriores. En la celda B7 introducimos la función suma que, como cualquier función, debe ir precedida por el signo “=”. Así, en la celda B7 escribimos =SUMA(B2:B6) y pulsamos INTRO. Automáticamente aparece el valor correspondiente (50,51). Lo siguiente es calcular el número de datos, que lo podemos hacer mediante la función CONTAR. Así, en la celda B8 escribimos =CONTAR(B2:B6) y pulsamos INTRO. Después calculamos la media, situándonos en la celda B9 y escribimos =B7/B8. Por ultimo, la desviación estándar la calculamos en B10 escribiendo =RAÍZ(D7/(B8-1)). 2 Esta secuencia de pasos constituye el procedimiento tradicional de calculo de la media y desviación estándar y simula con una hoja de calculo lo que hasta hace poco venían sufriendo nuestros alumnos con sus calculadoras. Pero todo esto todavía puede simplificarse más, mediante el uso de dos funciones que nos calculan directamente tanto la media como la desviación estándar. Si nos situamos en la celda B12 y escribimos =PROMEDIO(B2:B6) y en la celda B13 introducimos =DESVEST(B2:B6), automáticamente el programa nos calcula la media y la desviación estándar sin necesidad de recurrir al procedimiento anterior y, ni mucho menos, ¡a las obsoletas calculadoras! Observen como los resultados son idénticos. Para calcular la varianza, tenemos la función VAR. Así, si en F9 escribimos =VAR(B2:B6), el programa nos calcula la varianza del conjunto de datos. Para el coeficiente de variación no existe función disponible, así que dividimos s entre x : en F10 escribimos =B10/B9. Por defecto nos aparece expresada como tanto por uno. Si queremos expresarla en %, pinchamos con el botón derecho y en el menú desplegable seleccionamos Formatear Celdas. En el cuadro que se abre seleccionamos porcentaje y en código del formato ponemos los decimales que deseemos. 3. Distribución de medidas repetidas La desviación estándar aun cuando representa una medida del grado de dispersión de un conjunto de resultados respecto del valor medio, no indica como se distribuyen dichos datos ni la forma de la dispersión. Para poder aclarar esto son necesarias un gran número de medidas y la generación de una tabla de frecuencias y un histograma como los del siguiente ejemplo. Tabla de frecuencias. Es el número de veces que se repite cada dato. Histograma. Es la representación gráfica de la tabla de frecuencias. Ejemplo 2. Resultados de 50 determinaciones de calcio en una muestra de agua(mg/L) 50 50 52 51 52 50 51 52 51 48 50 51 54 49 50 51 51 48 50 51 48 47 47 50 50 49 48 48 52 48 52 50 52 49 51 48 49 50 50 49 3 52 49 51 54 53 53 49 49 52 52 Para construir la tabla de frecuencias hacemos uso de la función FRECUENCIA. Esta función requiere 2 argumentos: en 1º lugar el conjunto de datos del que queremos contar frecuencias (A1:J5), y en 2º lugar la referencia a los intervalos en que queremos agrupar los valores de la matriz de datos (grupos). Así, en D9 escribimos =FRECUENCIA(A1:J5;A9:A16). Pero esta es una función matricial, esto es, que devuelve un conjunto de valores, por lo que primero hemos de seleccionar el intervalo donde van a salir todos los valores, esto es, D9:D16, luego Menú Insertar Æ Función, seleccionamos FRECUENCIA y después especificamos los datos (A1:J5) y luego los grupos (A9:A16), y aparece en las celdas D9:D16 las veces que se repite cada dato. Para obtener el histograma, menú Insertar → Grafico → Columnas. En Series de datos, en Categorias ponemos el rango A9:A16 y en valores de y ponemos el intervalo D9:D16. 4. Límites e intervalo de confianza El intervalo dentro del cual se puede suponer de manera razonable al nivel de significación dado que se encuentra el valor verdadero se conoce como intervalo de confianza. Los valores extremos de dicho intervalo son los límites de confianza. Para muestras grandes x ± zs n Ejemplo 3. Calcular los límites de confianza al 95% y al 99% para las medidas del ejemplo 2. Para ello usamos la función INTERVALO.CONFIANZA, que consta de 3 argumentos: el 1º es el nivel de significación, esto es, (1-nivel de confianza). En nuestro caso 195% = 0,05; y 1-99% = 0,01. El 2º es la desviación estándar s del conjunto de datos, mientras que el 3º es el número de datos n del conjunto. Por tanto necesitamos calcular s y n. Así, si escribimos =INTERVALO.CONFIANZA(0,05;1,714762;50) se obtiene 0,48 para el 95% de confianza. Para el 99% de confianza se obtiene 0,62. Para muestras pequeñas x ± t n−1s n 4 Ejemplo 4. Se determino el contenido de ion potasio de una muestra obteniéndose los siguientes valores (mM): 101 98 97 99 103 105 ¿Cuáles son los límites de confianza al 95% y al 99% para la concentración de potasio? Aquí, al tratarse de una muestra pequeña, es necesario primero calcular el parámetro estadístico t (de Student). Para ello usamos la función TINV. Dicha función requiere de 2 argumentos: probabilidad y grados de libertad. La probabilidad es 1-nivel de confianza. En nuestro caso 1-95% = 0,05 y 1-99% = 0,01. Los grados de libertad es el nº de datos menos uno, esto es, 6-1=5. Así, si escribimos =TINV(0,05;5) obtenemos t=2,571 para el 95%. Para el 99%, t=4,032. Para calcular la desviación estándar s y el numero de datos n hacemos como en los ejemplos anteriores: =DESVEST(A1:F1) y =CONTAR(A1:F1), introduciéndolas en las celdas B4 y B2, respectivamente. Una vez que tenemos todo esto, estimamos el intervalo de confianza al 95%: =B7*B4/RAIZ(B2) y al 99%: =B8*B4/RAIZ(B2). Nos sale 3,23 y 5,07. En relación a todo esto, cabe decir que los resultados analíticos carecen de interés si no van acompañados de una estimación de la incertidumbre asociada a su medida. Así, puede usarse la media como una estimación de la cantidad medida y la desviación estándar como una estimación de la precisión (también se suele usar el intervalo de confianza al 95%). Debería quedar especificado también el número de datos (n). Otro uso de los intervalos de confianza es como test para detectar errores sistemáticos. Ejemplo 5. Se comprueba la medida de un espectrofotómetro UV-VIS a una longitud de onda (λ) de 540 nm. Para ello se utiliza un patrón de absorbancia 0,495 a dicha λ, y se realizan diez medidas repetidas cuyos resultados son los siguientes. Hallar el intervalo de confianza al 95% y discernir si existe error sistemático. 0,495 0,485 0,493 0,487 0,497 0,483 0,488 0,492 0,491 0,489 En 1º lugar, calculamos la media ( x ), la desviación estándar (s) y el numero de datos (n) del conjunto de datos, haciendo uso de las funciones PROMEDIO, DESVEST y CONTAR. Así, en la celda B3 escribimos =PROMEDIO(A1:J1), en B4 introducimos =DESVEST(A1:J1) y en B5 ponemos =CONTAR(A1:J1). Como se trata de una muestra de datos pequeñas, hemos de usar el estadístico t. Lo calculamos al 95% y para 10-1=9 grados de libertad escribiendo en la celda B5: =TINV(0,05;9). Por ultimo, el intervalo de confianza (I.C.) lo calculamos en B6: =B5*B4/RAÍZ(B2). Nos sale este 5 I.C. ±0,003. La media nos da 0,490. Por tanto, al 95% de confianza, el verdadero valor que mide el espectrofotómetro sobre la muestra está comprendido entre 0,490±0,003. Puesto que el valor especificado para el patrón de 0,495 queda fuera de dicho I.C. al 95%, es probable que exista error sistemático. 6