Moya Anegón, Félix, López Gijón, Javier, García Caro, Concepción. Técnicas cuantitativas aplicadas a la biblioteconomía y documentación -- Madrid : Síntesis, 1996. 174 p. INTRODUCCIÓN La actual reforma de los planes de estudio de las universidades españolas, como consecuencia de la Ley de Reforma Universitaria (1953), ha Ilevado al colectivo universitario a realizar un amplio debate sobre lo que hoy en día se exige en las titulaciones que expide la Universidad y la formación que actualmente deben tener los profesionales egresados. Lógicamente los estudios de Biblioteconomía y Documentación han aprovechado esta reforma de los planes de estudio para plantearse su futuro a partir del análisis de la situación actual. En este caso las reflexiones sobre el estatus profesional, y la formación que deben tener los profesionales de la información, eran más necesarias que en otros campos, pues tan sólo existimos desde hace poco más de diez años como estudios universitarios, y de los planes de estudio iniciales podemos decir que nacieron ya muy limitados y con pocas perspectivas de futuro. Hemos de reconocer que estos planes Ilevaban a los futuros bibliotecarios a considerar que su formación estaba integrada fundamentalmente por el conocimiento de los procesos técnicos que se realizan en las unidades de información (catalogación, clasificación...). Mientras tanto, aspectos básicos como la tecnología de la información, apenas tenían presencia, y otros conocimientos que hoy consideramos como núcleo de nuestra actividad profesional no existía en los planes de estudio que acabamos de abandonar. Si tenemos presente que, a la reforma de los pIanes de estudio de la Diplomatura, hay que sumar la puesta en marcha de los estudios de segundo ciclo -Licenciatura, deberemos reconocer que, en un breve plazo de tiempo, se han consolidado todos los niveles académicos que la Universidad puede otorgar (diplomatura, licenciatura y estudios de doctorado). El panorama que se nos presenta es, por consiguiente, alentador, pero también es amplia la responsabilidad que adquirimos ante la sociedad, pues se trata no sólo de mejorar la Diplomatura, sino que además hay que desarrollar la Licenciatura para después consolidarla. El gran objetivo es la formación de unos profesionales que sean capaces de partir de su aprendizaje universitario para lograr una gestión de Ias unidades de formación que las convierta en un auténtico servicio a la sociedad, en una época en la que la información adquiere cada vez más importancia. Es evidente que, si analizamos nuestra profesión desde la perspertiva de la situación española. las tareas que nos quedan por desarrollar son ingentes, pues hemos de reconocer que se carece de imagen ante la sociedad, los servicios que prestamos son invisibles para la mayoría de los ciudadanos, la Administración no sabe qué hacer con las bibliotecas y parece seguir la política de la rutina antes que diseñar y ejecutar auténticas políticas de información. Y, por si esto fuera poco, las bibliotecas tampoco suelen rendir cuentas de los servicios que prestan o de los resultados que obtienen, ni ante Ia institución de las que dependen, ni ante la sociedad que las financia. Algunos de los problemas detectados están relacionados con problemas formativos, y esto es lo que pretenden subsanar los nuevos planes de estudio. En éstos hay un gran aumento de los créditos dedicados a la tecnología de la información y aparecen nuevas disciplinas, como las relacionadas con las técnicas cuantitativas de evaluación y análisis. Se va a dar una nueva visión de la profesión en la que se pretende pasar del profesional que aplica unas herramientas de forma rutinaria a la nueva concepción d- profesional como experto en recuperación de información gracias a sus conocimientos en tecnología- v que además conoce y sabe aplicar técnicas cuantitativas que le permitirán analizar demandas y evaluar resultados. Se trata de superar la concepción del profesional como mero ejecutor de tareas de proceso técnico bibliotecario y ampliar sus funciones Ilegando a ser un experto en recuperación de información y en realidades como Internet. Todo esto se debe a la nueva situación que se crea en las bibliotecas con la aparición de usuarios que realizan demandas informativas que no pueden ser satisfechas por las unidades de información tradicionales. Pensamos que actualmente nuestra profesión no puede definirse solamente como intermediaria entre los usuarios y la información, máxime cuando gran número de aplicaciones están pensadas para el usuario final. Tener esta visión tan estrecha, aunque en nuestro país esté por desarrollar, nos Ilevará más temprano que tarde a un callejón sin saIida. Tenemos que plantearnos una concepción más amplia, y también una formación más variada, en la que además de asumir la recuperación de información, estemos obligados a conocer y desarrollar nuevas herramientas. Entre éstas las técnicas cuantitativas ocupan un lugar importante. Hay que dar un nuevo paso y admitir que las técnicas cuantitativas son esenciales en nuestro campo por múltiples razones: una buena gestión de los centros va a necesitar plantearse el cumplimiento de metas y objetivos, conocer el grado de cumplimiento de los mismos, elaborar nuevos objetivos, justificar el servicio que se presta, saber qué resultados se producen con los recursos empleados, cómo se pueden dar más y mejores servicios con los mismos recursos, etc. Estos puntos sólo los podremos Ilevar a la práctica si los bibliotecarios saben evaluar sus centros y, para realizar esta evaluación, será necesario, entre otros aspectos, una formación específica en disciplinas como la estadística aplicada y la bibliometría. También e: personal con responsabilidades ejecutivas tendrá que basar su toma de decisiones en algo más que su olfato bibliotecario, y, para ello, los procesos de evaluación serán una herramienta inapreciable. Igualmente, en la justificación del servicio que se presta, el más eficaz de acuerdo con los recursos empleados, necesitará el bibliotecario ser capaz de procesar los datos que genera la biblioteca e interpretar los resultados, y así demostrar que la gestión del centro es de calidad. La visión que estamos proponiendo del nuevo profesional es el perfil de alguien que resuelve problemas y, para solucionarlos, necesitara dominar dos conjuntos de conocimientos: reclcperación de información y tecnicas cuantitarivas. Estos problemas los podemos englobar en dos grandes apartados: por un lado, los problemas de acceso a la información por parte de los usuarios, en este caso su capacidad de manejar y conocer ]as herramientas de recuperación de información y ]as fuentes mismas serán decisi~as; por otro lado, tendrá que abordar los posibles problemas de gestión demostrando su capacidad para cuantificarlos y proponer soluciones. Por extensión, este planteamiento nos Ileva a decir que la enseñanza / aprendizaje de nuestra profesión en los niveles universitarios, debe tener como base la solución de problemas. Si el profesional de la información es alguien que soluciona problemas es Iógico pensar que su formación se puede plantear en base a su identificación, descripción, análisis, conceptualización y resolución. Si estamos hablando de resoIver problemas de forma objetiva es evidente que el lenguaje de formulación no puede ser otro que el matemático y la cuantificación tiene que ser, igualmente, la base para la solución. Lo que estamos diciendo es que el avance de nuestra disciplina será sólido en tanto que seamos capaces de matematizar, de plantear los problemas y sus soluciones con base cuantitativa. Este es el reto que actualmente tenemos que afrontar. Si vamos abandonando el nivel intuitivo en el que hoy principalmente se mueve nuestra profesión, y pasamos a describir matemáticamente los procesos informativos, estaremos en condiciones de Ilegar a situaciones que hoy están muy lejos de alcanzarse. Nos estamos refiriendo a la capacidad de generar modelos. A partir del análisis de los datos obtenidos de la realidad podremos generar modelos que nos expliquen esos datos, es decir, estaremos en condiciones de conocer comprender de forma objetiva los procesos que se desarrollan en las bibliotecas. Estos modelos, una vez demostrada su validez empírica, nos permitirán predecir situaciones, con lo que podremos adelantarnos a los problemas. Si podemos definir modelos dispondremos de una potente herramienta en los procesos de toma de decisiones, pues podremos simular (que pasaría si...) los procesos y ver sus resultados antes de Ilevarlos a la práctica. Igualmente tener modelos nos permitirá realizar predicciones, y estas. una vez que se demuestren universales, nos Ilevarán a formular leyes, lo que nos acerca a poder elaborar teoría. Es evidente, que en un campo como el nuestro, el hecho de que podamos contar con herramientas que nos permitan plantear procesos teóricos, experimentarlos, contrastarlos y demostrarlos nos abre un camino Ileno de posibilidades. Estaríamos dando un salto hacia nuevos contenidos científicos en nuestro ámbito. A las actividades que ya desarrollamos en las unidades de información. proceso técnico y recuperación de información, debemos sumar los puntos que acabamos de tratar, como justificación de la gestión, mejora de la calidad, aplicar y, si es posible, desarrollar modelos que nos expliquen Ia realidad bibliotecaria. En la medida en que avancemos en esta Iínea estaremos en condiciones no sólo de que la sociedad nos conozca, sino que nos reconozca, es decir que los ciudadanos vean y aprecien la función de las unidades de información y la labor de sus profesionales. Y de esta forma nuestra profesión mejorará su estatus. Las reflexiones que anteceden son las conclusiones que podemos extraer del proceso de elaboración de los planes de estudio, en la Universidad de Granada. Una vez Ilegados a este punto comprobamos que en España apenas existe material tanto para los estudiantes como para los profesionales, que nos permita trabajar en esta Iínea. La constatación de este hecho fue lo que nos animó a escribir este libro. Pretendemos que el lector comprenda, y pueda aplicar, una serie de herramientas que en el libro se proponen. Estas herramientas están en la línea de lo anteriormente comentado, y deseamos que el lector, -bibliotecario, documentalista o estudiante-, pueda extraer de ellas la potencialidad que nosotros creemos que poseen. Como puede observarse, el libro se divide en ocho apartados en los que se pueden diferenciar claramente dos partes: la primera gran parte está formada por los cinco primeros capítulos y forman una unidad pues son claramente apartados dedicados a la estadística. En estos capítulos el aprendizaje esta relacionado con el orden secuencial de los mismos. El primer capítulo está dedicado a la Estadística descriptiva, es decir a describir los datos, en el estudiamos las medidas de centralización y de dispersión. El segundo capítulo está dedicado a los Modelos de distribución de la probabilidad, en el que primero hacemos una introducción a la probabilidad, para después estudiar los distintos modelos de distribución de la misma. Una vez conocidos los modelos de distribución de probabilidad podemos empezar el tratamiento de datos, para lo cual estudiamos los distintos muestreos probabiIísticos como herramientas válidas para el análisis de datos que nos permitan hacer inferencias sobre la población. También en este tercer capítulo vemos Ias estimaciones que podemos realizar: por tanto, al Ilegar a este punto estamos en condiciones de poder aplicar la inferencia estadística, que nos permitirá, a partir de los datos recogidos de muestras probabilísticas, realizar inducciones sobre la población a la que pertenecen los datos muestrales. El capítulo cuarto está dedicado a las pruebas estadísticas. en el que principalmente estudiamos cómo podemos aceptar o rechazar hipótesis. El último apartado de esta primera gran parte lo dedicamos a Ia correlación y regresión, en el que veremos cómo relacionar dos variables, pues en el apartado dos los modelos de distribución de la probabilidad nos permiten estudiar una sola variable. Una vez vistos estos cinco apartados, que ya hemos dicho son eminentemente estadísticos, el lector estará en condiciones de aplicar a nuestro campo las grandes prestaciones que estas herramientas estadísticas nos proporcionan. El sexto apartado está dedicado a los indicadores bibliotecarios. y aunque mantiene relaciones con lo ya visto, puede leerse y aplicarse por separado respecto de los capítulos anteriores. En este epígrafe hemos desarrollado una serie de indicadores que pensamos son útiles en las tareas de evaluación y toma de decisiones en bibliotecas. En el capítulo siete desarrollamos los dos tipos de aplicaciones informáticas, hojas de cálculo y paquetes estadísticos que se utilizan con más frecuencia para el tratamiento de datos. Finalmente en el capítulo ocho, a partir de una serie de datos bibliotecarios y utilizando técnicas cuantitativas. realizamos, un tratamiento de estos datos. Este apartado pretende ser un ejemplo de cómo el tratamiento cuantitativo de estos datos permite un amplio conocimiento de los fenómenos y procesos que se dan en las bibliotecas. Como podrá observar el lector todos los conceptos que desarrollamos en el libro están acompañados de ejemplos, pues pensamos que de esta forma es mas fácil su comprensión. En algunos cálculos también se puede observar que, al realizarse con el programa estadístico Statistica, son más precisos de lo que se explica en el texto. Por último el lector comprobará Que algunos de los capítulos del libro van acompañados de problemas, y pensamos qué, para una mejor comprensión de lo que se está exponiendo es importante la solución de estos ejercicios. Esperamos y deseamos que el material que hemos desarrollado para el presente libro permita a los profesionales de la información contar con nuevas herramientas a la hora de desarrollar su trabajo. Moya Anegón, Félix, López Gijón, Javier, García Caro, Concepción. Técnicas cuantitativas aplicadas a la biblioteconomía y documentación -- Madrid : Síntesis, 1996. 174 p. CAPITULO 1 DESCRIPCIÓN DE DATOS ESTADíSTICA DESCRIPTIVA Con la estadística descriptiva lo que pretendemos hacer es un resumen de los datos, es decir extraer de ellos la información que consideramos más relevante. Este resumen de las observaciones será el primer paso para después poder realizar inferencias, que es el objeto de la estadística inductiva o inferencial. La estadística descriptiva, por tanto, solo se ocupa de resumir (describir) la muestra estudiada las observaciones realizadas, y no establece relación alguna con la población a la que pertenece la muestra. Como veremos más ampliamente en el apartado de muestreo (3.1) las observaciones se pueden hacer sobre el total de los posibles valores de la variable, en este caso estaríamos trabajando con la población, o, por el contrario, si lo que tenemos es un conjunto representativa de elementos de una población, estaríamos trabajando con una muestra. 1.1. Medidas características de una distribución 1.1.1. Medidas de tendencia central Si disponemos de un conjunto de datos homogeneos de una variable cuantitativa les podemos aplicar ciertas medidas de resumen, pues, como acabamos de ver, la estadística descriptiva nos permite representar o resumir las características fundamentales de un conjunto de datos no analizados. A estas medidas se les Ilama de centralización porque nos sirven para representar el valor medio de los datos, es decir, el valor que refleja el tamaño del dato más esperado. Ello nos indica la posición en la que se encuentra el centro de los datos y por eso se denominan medidas de tendencia central. Las medidas de centralización más utilizadas son la media, la mediana y la moda. EJEMPLO Una biblioteca quiere conocer el tiempo medio que tardan los proveedores en suministrar las peticiones que la biblioteca les hace, con la idea de conocer tanto el tiempo medio en que se sirven los pedidos, como los proveedores que superan ampliamente esta media. Para ello cuenta con el tiempo en días que los proveedores han tardado en suministrar distintos pedidos, que son los que aparecen en el gráfico adjunto. Los días que cada proveedor (P1..P15) ha tardado en suministrar un pedido son los valores que adquiere la variable x. Y el número de proveedores analizado (15) es n. Por tanto, diez días es el tiempo medio que tardan en suministrar los pedidos. Si representamos gráficamente estos resultados (véase gráfico adjunto) vemos que en los diez días, que es la media, hemos trazado una Iínea y se ve clararamente qué proveedores tardan más o menos tiempo en función de la media. Con lo que la biblioteca estaría en condiciones de tomar las decisiones que considere oportunas con respecto a los suministradores más lentos. 1.1.1.2. Mediana La mediana es un número tal que, si ordenamos los datos de forma creciente o decreciente, cumple la condición de ser mayor que una mitad y menor que la otra. Es decir, es el valor que divide la distribución en dos partes iguales. Si el número de los casos es impar la mediana es el valor central, si el número de casos es par la mediana será la media de los dos valores centrales. Por tanto si n es impar la mediana será el dato (n+1)/2. Si el número de datos es par la mediana se encontrará en el centro entre el dato n/2 y (n+2)/2 y como ya hemos dicho entonces la mediana se obtiene al calcular la media de estos dos valores centrales. EJEMPLO Una biblioteca que hace adquisiciones de libros antiguos quiere saber el tiempo que tardan los proveedores (P1..P15) en suministrarles los pedidos, para hacerlo constar en su informe anual sobre la biblioteca Y para ello quiere calcular la mediana. Los días que tardan los proveedores son: Como el número de proveedores es impar (15) la mediana se encontrará en el lugar (15+1)/2=8, Y vemos que el valor del lugar octavo es 30, que es el valor de la mediana (véase gráfico y tabla adjuntos). Treinta días es el valor mediano que tardan los proveedores en suministrar los pedidos. 1.1.3. Moda La moda de una distribución es el valor más frecuente. Si los datos de la distribución están agrupados, la moda es el punto medio del intervalo que contiene el mayor número de frecuencias. Una distribución de observaciones puede no tener moda, es decir ningún valor de la distribución aparece con más frecuencia. EJEMPLO Una biblioteca especializada tiene recogido el tiempo en días que tardan los usuarios (U1..U15) en devolver los préstamos. Y para ajustar la política de préstamos al tiempo real que tardan los usuarios quiere calcular la moda de los tiempos de demora. Los tiempos en días que han tardado los distintos usuarios en devolver los préstamos son: Como hemos visto la moda es el valor más frecuente. Y podemos observar que este valor es 2, dos días, por tanto, podría ser el plazo idóneo de préstamo para esta biblioteca (véase gráfico adjunto). También puede darse el caso de que dos valores tengan la misma frecuencia, entonces podemos encontrarnos con una moda que no es única, es decir una distribución con dos modas, a la que llamamos bimodal. Cuando nos encontramos con una distribución bimodal podemos interpretar que no existe suficiente homogeneidad en la población, y de cara a su estudio podría ser conveniente subdividirla. Una biblioteca pública tiene recogido el número de personas que han asistido a los 24 actos de extensión cultural que ha organizado durante el último año, con vistas a realizar un estudio sobre las actividades de animación que realiza el centro. Los datos de asistencia a los actos son: Si se observa esta distribución se ve que es bimodal (en 58 y 32 con una frecuencia de 2), luego pueden existir dos grupos distintos de asistentes. Revisados los datos, se constata que están agrupados todos los actos que organiza la biblioteca, pero sin embargo hay actividades para adultos y para jóvenes y, si se desagregan, la moda de los actos para jóvenes es de 58 y para adultos es de 32, por lo que se debe considerar que es preferible estudiar por separado los actos para adultos de los organizados para jóvenes, pues parece observarse comportamientos distintos en ambos, grupos. 1.1.1.4 Cálculo de la media de datos agrupados A veces necesitamos calcular la media de una distribución de frecuencias en la que los datos están agrupados en intervalos. En este caso la fórmula que debe aplicarse es : EJEMPLO Una biblioteca tiene un registro del número de documentos que cataloga y del tiempo que tarda: en el intervalo de 5 a 9 minutos se han catalogado 10 documentos, 25 documentos han tardado en ser catalogados de 10 a 14 minutos, 15-19 minutos es el tiempo que se ha tardado para 31 documentos, 12 documentos se han catalogado entre 20 y 24 minutos, de 25 a 29 minutos se ha necesitado para catalogar 8 documentos, y por último para catalogar 10 documentos se ha necesitado de 30 a 34 minutos. A partir de estos datos, la biblioteca quiere conocer el tiempo medio que tarda en catalogar. Para ello podemos construir una tabla, como la siguiente, que nos facilite el cálculo: EJEMPLO Una biblioteca tiene recogido los precios del material que adquiere: 3 documentos han costado entre 1 y 500 pesetas, el precio de 13 ha oscilado entre 501 y 1.000, entre 1.001 y 1.500 pesetas se han adquirido 25 documentos, 20 han tenido un precio entre 1.501 y 2.000, el precio de 18 documentos se encuentra comprendido entre 2.001 y 2.500 pesetas, entre 2.501 y 3.000 se han adquirido 20 documentos y por último 11 han tenido un precio que oscilaba entre 3.001 y 3.500. A partir de estos datos la biblioteca quiere conocer el precio mediano de los materiales que adquiere. Para realizar este cálculo podemos construir una tabla como la siguiente: Para conocer el límite inferior del intervalo que contiene la mediana (I), dividiremos el número total de observaciones por dos, 110/2=55, la mediana se encontrará en el intervalo que tenga la frecuencia acumulada más cerca de 55, que es el intervalo 1.501-2.000 (tiene una frecuencia de 61), el límite inferior es por tanto 1501. n es la frecuencia total, que como vemos en la tabla es 110. F es la frecuencia acumulativa que corresponde al Iímite inferior que contiene la mediana, que es 41. El número de casos del intervalo que contiene la mediana Ct) es 20 y ia amplitud del intervalo que contiene la mediana (i) es 500. Por tanto si sustituimos estos valores en la fórmula Luego el precio mediano del material que adquiere esta biblioteca es de 1.851 pesetas. 1.1.1.6. Comparación de la media y la mediana Tanto la media como la mediana son, como hemos visto, medidas de centralización, pero sin embargo, y según los casos, una puede ser más útil que otra a la hora de dar información sobre los conjuntos de datos. Para saber cuando puede ser más útil aplicar una u otra, vamos a ver algunas diferencias entre estas medidas. Para calcular la media utilizamos todos los datos, sin embargo para la mediana esto no sucede. Al utilizar todos los datos para el cálculo de la media ocurre que si hay valores extremos la media se verá bastante afectada, por el contrario la existencia de valores extremos afecta muy poco a la mediana. En el ejemplo que hemos visto para la media el resultado era 10, si calculamos la mediana de ese ejemplo también nos da 10. Sin embargo en el ejemplo de la mediana vemos que su valor es 30, pero si calculamos la media nos da 37.53. Con estos ejemplos se puede ver que cuando hay más casos extremos en una dirección que en otra (distribución con gran asimetría) la mediana será más apropiada que la media. Y por eso, en el caso de la biblioteca que quiere conocer el tiempo que tardan en suministrarle los libros antiguos para incluirlo en su informe anual debido a que se dan valores extremos, es más apropiado el cálculo de la mediana que de la media. También hay que tener presente, aunque no es objeto de estudio en este libro, que para utilizar la media necesitamos una escala de intervalo. Sin embargo, la mediana se puede utilizar tanto en las escalas de intervalo como en las ordinales. 1.1.2. Medidas de dispersión El conjunto de técnicas que se describen a continuación se utilizan para medir el grado de dispersión que existe en la distribución de los valores de cualquier variable objeto de estudio. Para tener un conocimiento precise sobre un conjunto de datos, no basta con conocer las medidas de tendencia central -media, moda y mediana- estudiadas en el apartado anterior, pues, como ya se ha visto, sólo se ocupan de medir un aspecto de ese conjunto de datos. Se necesita también conocer lo contrario: la dispersión que presentan los datos en su distribución, con objeto de tener una visión de los mismos más acorde con la realidad a la hora de describirlos e interpretarlos. Existen muchas formas de medir la dispersión en la distribución del conjunto de valores de una variable. Las más usadas son: el recorrido o amplitud, la desviación media, la varianza y la desviación típica. 1.1.2.1 EL recorrido o amplitud Esta es la medida de dispersión más simple, pues para determinarla no se necesita cálculos sofisticados, sólo hay que hallar la diferencia existente entre el valor mayor y el menor de los que toma la variable objeto de estudio. Esta forma de medir la dispersión presenta un problema, y es que suele ser común que en algunas distribuciones aparezcan valores extremos, que no siendo los más frecuentes con respecto al conjunto sean únicamente éstos los que determinen el valor de la amplitud sin importar nada los valores intermedios, que serán la mayoría. Es decir, se tienen sólo en cuenta los valores menos comunes de la variable, y el resultado puede no ser representativa del conjunto, si éstos son atípicos con respecto a los valores intermedios. EJEMPLO Supongamos que una biblioteca hace varios meses que ha puesto en funcionamiento un Sistema Integrado de Gestión Bibliotecaria. Al mismo tiempo, ha conseguido hacer la conversión retrospectiva en un breve plazo de tiempo y quiere conocer cuanto tardan los usuarios en encontrar la información que desean usando el catálogo automatizado en lugar del tradicional catálogo manual, al que estaban acostumbrados. Para ello, los responsables de la biblioteca se han dedicado a medir, durante una serie de días, lo que tardan los usuarios en hacer las búsquedas. Los resultados obtenidos están en la siguiente tabla, en la que podemos ver el tiempo consumido por los usuarios y a su lado el número de éstos contabilizado en cada rango temporal. Estos mismos datos están representados en la figura adjunta, que nos permite un mejor análisis de la distribución de los resultados del estudio. En el gráfico podemos observar cómo hay pocos usuarios que tardan pocos minutos y también pocos usuarios que tardan muchos minutos, estando situados la mayor parte de ellos en los tiempos intermedios. Pues bien, el recorrido o amplitud de los valores que toma la variable minutos va desde 30. que es el máximo tiempo que se ha observado que tarda un usuario, a 1 minute, que es el tiempo mínimo, por lo tanto la amplitud es de 30-1. También lo podríamos expresar mediante el resultado de esta sustracción, es decir, el recorrido es de 29 minutos, pero citándolo fuera de contexto puede inducir a error pues la misma cifra podría referirse a un recorrido distinto. Por ejemplo, entre 44 y 15 minutos también hay una amplitud de 29. En resumen, la amplitud es una forma muy simple de medir la dispersión de los valores de una variable y es fácil de calcular porque sólo tiene en cuenta los valores extremos de la misma, por lo que siempre se debe usar citando cuáles son esos valores. Por otro lado, al ser una medida tan simple sólo indica la dispersión de forma bruta y su uso se recomienda únicamente cuando se necesita una forma rápida de medir la dispersión pues se puede calcular a simple vista. 1.1.2.2. El recorrido intercuartílico Es una variante del recorrido que se usa cuando los datos presentan valores máximos y/o mínimos muy extremos con respecto a los intermedios y se tienen en cuenta sus frecuencias. En estos casos no es conveniente usar la amplitud para medir la dispersión sino el recorrido intercuartílicolico. Para calcularlo, primero se dividen las frecuencias en cuatro partes iguales, siendo los valores que separan cada una de las partes los Ilamados cuartiles (Q1, Q2 y Q3) y, a continuación, se halla la diferencia entre el valor del cuartil tercero (Q3) y primero (Q1l), entre los que estarán el 50% de las frecuencias de la variable, obviando así el problema que presentaba la amplitud, al tener también en cuenta los valores extremos. EJEMPLO El tiempo de duración de las consultas al bibliotecarios de referencia que realizan los usuarios de una biblioteca universitaria, cuando tienen dificultades para localizar un documento, se reflejan en la tabla adjunta, y se representan en el gráfico siguiente. Se han dividido las frecuencias de la variable minutos en cuatro partes, cuyos límites son los tres cuartiles, teniendo cada uno un tamaño del 25% de las frecuencias. El recorrido intercuartllico mide la distancia entre el tercer cuartil y el primero, en este caso el se sitúa en 5, y Q3 en 8 minutos. Ambos puntos están señalados en el margen derecho del gráfico El recorrido intercuartllico en este caso va de 8 a 5 minutos, una diferencia de 3 minutos. Igual que en el caso anterior, es mejor citarlo en su contexto: e3 - el = s - 5 = 3 Como se puede observar, la mayoría de los usuarios están situados entre ambos valores, es decir, el bibliotecarios de referencia dedica entre 5 y 8 minutos a resolver problemas de búsqueda de información que los usuarios no han podido resolver por sí mismos. Si nos fijamos en el gráfico, el rectángulo central representa el área del 50% de las frecuencias que mide el recorrido intercuartllico, mientras que la línea vertical representa la amplitud que en este caso sería igual a 12-1; en el eje vertical izquierdo están representados los minutos. Queda claro pues, que no se han tomado en consideración valores extremos de la variable, lo que permite una visión de la dispersión más ajustada a la realidad de los datos. Del mismo modo, si aplicamos el método del recorrido intercuartllico al ejemplo anterior -tiempo que tardan los usuarios en consultar el catálogo-, y dividimos las frecuencias en cuartiles, el estaría situado en 8 minutos y Q3 en 16 minutos: Q3 - Q1 = 16 - 8 = 8 Es decir, el 50% de los usuarios estarían entre 8 y 16 minutos consultando el catálogo. Aunque el recorrirdo intercuartllico no está sujeto a la influencia de posibles valores atípicos, no hay que olvidar, a la hora de la interpretación del resultado, que no está teniendo en cuenta las frecuencias de los valores extremos de la variable. Esto quiere decir que no tendría sentido usar esta medida de dispersión si la mayoría de los sucesos observados se encontraran uniformemente repartidos entre todos los valores de la variable o en los valores extremos de la misma. En resumen, para conocer de forma rápida cuál es el grado de dispersión del conjunto de valores de una variable, se usará la amplitud cuando en los valores extremos de la misma haya frecuencias considerables o éstas estén repartidas de forma homogénea entre todos los valores, y si, por el contrario, éstos presentan valores máximos y/o mínimos muy extremos y en ellos sólo se encuentran frecuencias muy bajas, se debe utilizar el recorrido intercuartnico. 1.1.2.3. La desviación media La desviación media es una medida más compleja que las anteriores para conocer el grado de dispersión de los valores de una variable, y además resuelve los problemas que hemos observado en las medidas anteriores, pues para su cálculo se tienen en cuenta todos los valores de la misma. Indica la diferencia media que existe entre todos los valores de una variable y la media de la misma. Se calcula hallando la diferencia de cada valor de la variable con respecto a la media aritmética, a continuación se suma el resultado de estas diferencias considerado como valor absoluto se divide por el número de observaciones. El valor absoluto de un número es el valor que representa sin tener en cuenta el signo positivo o negativo, que le acompaña. Si se hicieran los cálculos respetando el signo, es decir, unas veces sumando y otras restando el valor de cada variable con respecto a la media, el resultado sería siempre 0, ya que las diferencias positivas se compensarían con las negativas. Hay dos soluciones para que esto no ocurra. La primera es ignorar el sjgno esto es, el valor absoluto, -se representa con barras verticales que es lo que hace la desviación media. La otra solución es elevar al cuadrado el resultado de las diferencias, que es lo que hacen, como veremos más adelante, la desviación típica y la varianza. EJEMPLO Supongamos que dos universidades -A y B-, consideradas representativas de las universidades de un determinado territorio, de los presupuestos destinados a las bibliotecas de los distintos centros de enseñanza que las componen, dedican una media de 2.000 ptas por alumno (x = 2.000) para la adquisición de fondos bibliotecarios, aunque cada una de ellas los distribuye de distinta manera. En la primera columna de ambas tablas están los nombres de los distintos centros y en la segunda los valores que toma la variable x -pesetas por alumno- en cada centro de la universidad A y de la B. En la tercera columna está el valor absoluto de la diferencia de cada valor que toma la variable con respecto a la media. Si sumamos los valores de la tercera columna de cada universidad y los dividimos por el número de observaciones, n, tendremos la desviación media de la universidad A y de la B. Estos mismos datos están representados en un diagrama de barras en la figura adjunta, en donde se pueden ver gráficamente estas diferencias en la asignación del presupuesto entre las bibliotecas de las distintas facultades, aunque como ya se ha dicho en el enunciado del ejemplo, ambas universidades dedican de media 2.000 ptas por alumno. La DM(A) 600 y la DM(B) 1.800 nos indican que los valores de la variable en la universidad A están más uniformemente repartidos que en la universidad B. Al mirar el gráfico se puede observar que la universidad B le está dando más dinero, por lo tanto más importancia, a las bibliotecas de las facultades de Económicas y Políticas que a las demás. Mientras que la universidad A reparte el presupuesto de forma más igualitaria. Es decir la dispersión de los valores de la variable en la universidad B es tres veces mayor que la de la A. Luego, en la universidad B los valores están tres veces más disperses con respecto a la media que en la A. Si se hubiera analizado el caso sólo con el dato de la media, habríamos concluido que ambas universidades dedican la misma cantidad a la compra de fondos bibliográficos en relación con el número de alumnos. Esto es verdad, pero utilizando la desviación media para conocer la dispersión, se comprueba que el resultado para las bibliotecas de cada una de las facultades no es el mismo. Por lo tanto, la interpretación de la desviación media es la siguiente: mientras mayor sea su valor, mayor será la dispersión existente en la distribución de los valores de la variable y viceversa. Aunque como se ha visto, la desviación media es una medida de dispersión más eficaz que el recorrido y con fines puramente descriptivos puede ser útil, no es, sin embargo, la medida más utilizada para conocer el grado de dispersión de los valores de una variable. Esta suele ser la desviación típica porque se puede interpretar más fácilmente en términos de la distribución normal. 1.1.2.4 La varianza La desviación típica o desviación estándar y la varianza son las medidas de dispersión más utilizadas debido a que tienen aplicación en otras funciones estadísticas más complejas. La varianza se define como el valor medio, elevado al cuadrado, de las diferencias de cada valor de la variable con respecto a la media aritmética y su fórmula es la siguiente en el caso de la varianza de la población: z La varianza se utiliza más en la estadística inferencial que en la puramente descriptiva para calcular el grado de variación entre distintas medias extraídas de las muestras. Además, hay un conjunto de pruebas estadísticas, conocido por Ias siglas ANOVA (ANalysis Of VAnance)- basadas en la varianza; para diseñar experimentos complejos y para análisis de datos a un nivel más alto que el propósito de este libro. 1.1.2.5. La desviación típica A cada medida de centralización podemos asociar una medida de la variabilidad de los datos respecto a ella, a la media le asociamos la desviación típica que se puede definir como la raíz cuadrada de la varianza, o en otras palabras, la raíz cuadrada de la media aritmética de las diferencias de cada valor respecto a la media elevada al cuadrado. Tanto la desviación típica como la varianza son similares a la desviación media, en el sentido de que miden la diferencia de cada valor de la variable con respecto a la media aritmética, pero lo hacen de modo distinto, ya que no usan el valor absoluto de cada diferencia, sino que elevan al cuadrado el resultado de la misma, como ya dijimos anteriormente. La desviación típica es un tipo de promedio de las desviaciones de los puntos respecto a su media. Aunque la forma de calcularla es la misma si trabajamos con datos de la población o con datos de una muestra, el símbolo de la desviación típica es distinto, s si los datos con los que estamos trabajando proceden de una muestra de la población y V si los datos proceden de la población. EJEMPLO Supongamos que las bibliotecas de los distintos centros de las universidades A y B del ejemplo anterior han realizado una encuesta a los usuarios para conocer el grado de satisfacción de los mismos con respecto al servicio que prestan. La valoración global que han merecido cada una de las bibliotecas de los centros de ambas universidades está expresada por un valor comprendido entre 1 y 10, donde 1 significa la máxima valoración negativa y 10 la satisfacción máxima con respecto al servicio de la biblioteca. Los resultados son los siguientes: En la columna primera de ambas tablas, como en el ejemplo anterior, están los nombres de los centros de las universidades A y B. En la segunda columna los valores que toma la variable x para cada centro, en este caso la valoración global de cada facultad hacia su biblioteca. En la tercera columna están las diferencias ente el valor que toma la variable en cada una de las facultades con respecto a la media. Como se puede observar, aquí no se ha obviado el signo resultante, es decir, no se ha tomado el valor absoluto de la diferencia década variable con respecto a la media como en el cálculo de la desviación media. En la cuarta columna están las diferencias del valor de cada variable con respecto a la media elevadas al cuadrado. A continuación se suman los resultados de la cuarta columna y se dividen entre 5 que es el número de observaciones (n), al resultado de esta división se le calcuIa la raíz cuadrada y obtenemos la desviación típica. Para una mejor comprensión de los datos, éstos están representados en forma de diagrama de barras en la figura adjunta, junto con el valor de la media de ambas universidades que nuevamente vuelve a ser la misma para las dos, en este caso 6. Si se relacionan los resultados de la desviación media del ejemplo anterior, y de la desviación típica para interpretar los datos, se podría decir que, dado que la universidad A reparte de forma más uniforme el presupuesto entre sus bibliotecas, también son más uniformes las opiniones de los usuarios de las mismas en cuanto al nivel de satisfacción. En cambio, en la universidad B el presupuesto asignado a cada centro varía mucho y, por lo tanto, el grado de satisfacción también, puesto que en el centro que más dinero se recibe para la compra de fondos bibliográficos, es razonable suponer que sus usuarios estarán más satisfechos porque tendrán más posibilidades de encontrar los documentos que les interesan. Esto no quiere decir que en el grado de satisfacción de los usuarios de la bibliotecas influya únicamente el presupuesto asignado a la compra de fondos; sólo podemos deducir que es un factor que influye, junto con otros factores que no han sido estudiados en estos ejemplos. 1.1.2.6. Desviación típica de frecuencias Debido a que la mayoría de las veces necesitaremos conocer la desviación típica de una distribución de frecuncias más que la de un conjunto de valores de una variable, pasamos a continuación a analizar la forma de obtener la desviación típica en una distribución de frecuencias. La fórmula para calcularla es la siguiente: EJEMPLO Una biblioteca desea estudiar la circulación de documentos por usuario y años; para lo ha tomado una muestra de préstamos, y con ella ha construido la distribución que se representa en la siguiente tabla. En la primera columna están los datos de la variable x (número de préstamos), en la segunda columna las frecuencias (f) número de usuarios que reciben en préstamo x documentos, en la tercera columna el valor de la variable x elevado al cuadrado y en la cuarta columna la frecuencia multiplicada por el valor de la variable al cuadrado fx': La desviación típica de esta distribución de frecuencias es 3.98. De donde se concluye que siendo el número medio de documentos prestados por usuario de 10.31, la mayoría de los usuarios actives de la biblioteca se Ilevan entre 10.31+3.98 préstamos y 10.31-3.98 préstamos. La interpretación de la desviación típica y de la varianza es la misma que la de la desviación media: cuanto mayor sea su valor, mayor será la dispersión de la distribución de los valores de la variable con respecto a la media. En los siguientes capítulos se verá la importancia de la desviación típica en otras técnicas estadísticas, por ejemplo en cualquier estudio sobre una distribución normal. Es, además, un concepto esencial en la teoría del muestreo y en la utilización de varias pruebas estadísticas. 1.2. Problems 1) Una biblioteca tiene recogido el tiempo que tardan los usuarios en consultar el catálogo en Iínea, que es el siguiente: entre O y 2 minutos ha sido el tiempo de consulta que han realizado 15 usuarios, 10 usuarios han tardado de 3 a 5 minutos, de 6 a 8 minutos ha sido l tiempo que han empleado 6 usuarios y 7 usuarios han empleado entre 9 y 11 minutos. Calcular el tiempo medio de consulta de los usuarios de esta biblioteca. 2) Una biblioteca tiene registrado el número de personas que han asistido a los 12 actos culturales que ha organizado, el número de asistentes a estos actos es: 34, 42, 53, 47, 51, 62, 35, 70. 62, 40, 65. Calcular la media, la mediana y la moda. 3) Una biblioteca está haciendo un estudio sobre circulación de materiales en su centro y tiene recogidos los datos de los años de publicación de los documentos que han circulado. Estos años son: 1978, 1992, 1988, 1985, 1973, 1980,1990,1994,1864,1995,1954. ¿Qué medida de centralización cree que debería aplicarse? Justifique la razón de la elección. 4) De una muestra de 20 usuarios se han observado las siguientes frecuencias en el uso de publicaciones periódicas durante una semana: PP 0 1 2 3 4 5 6 7 8 Usuarios 3 5 4 2 3 1 0 1 1 Calcular la desviación media de esta distribución. 5) De una base de datos se ha cogido una muestra de 20 registros que tienen los siguientes puntos de acceso: 3, 3, 5, 6, 8, 2, 4, 3, 4, 5, 2, 4, 3, 4. 2, 5, 6, 3, 4. ¿Qué medida de dispersión sería más conveniente usar: la amplitud o el recorrido intercuartílico? 6) Tiempo medido en semanas que tardan en llegar al usuario los documentos pedidos en préstamo interbibliotecario: Semanas 1 2 3 4 5 6 7 8 Documentos 1 5 9 12 8 6 3 1 Calcular la desviación típica. Moya Anegón, Félix, López Gijón, Javier, García Caro, Concepción. Técnicas cuantitativas aplicadas a la biblioteconomía y documentación--Madrid:Síntesis,1996.174p. 2-LA PROBABILIDAD Y SUS MODELOS DE DISTRIBUCIÓN 2.1. La probabilidad La probabilidad trata de la forma en que usamos el concepto azar en el trabajo estadístico y por qué debemos utilizarlo. Se aplica a sucesos que impliquen un cierto grado de incertidumbre y consiste en conseguir una estimación numérica de la posibilidad de que suceda o no suceda un determinado hecho. Aunque no existe una definición teórica universalmente aceptada de la probabilidad, la más sencilla y, por tanto, la más utilizada es: la probabilidad teórica de que ocurra un determinado suceso es igual al resultado de dividir el número de casos observados con una característica por el número total de casos: P = Número de casos con una característica / Número total de casos En otras palabras, la probabilidad se usa para calcular las posibilidades de que ocurra o no ocurra un determinado suceso objeto de estudio. Como en Estadística se trabaja normalmente con datos que provienen de muestras de población y no con todos los datos de la población, debemos tener en cuenta que al hacerlo así existe el riesgo de que podamos incurrir en un error, es decir, que la muestra escogida no sea representativa de la población de la que se ha extraído. Según la teoría de la probabilidad es posible determinar la probabilidad que existe de error, es decir, qué margen de riesgo se asume al realizar estudios basados en muestras. Todas las pruebas estadísticas basadas en hipótesis, a las que se pueden someter los datos de una muestra, son de naturaleza probabilística y no debemos olvidar que cuando las usamos para aceptar o rechazar hipótesis estamos sujetos a error. Aunque muchas veces recurriremos a tablas de probabilidad para verificar o rechazar hipótesis y no tendremos necesidad de calcularlas, es necesario ser conscientes de lo que significan dichas tablas, para lo cual es preciso estudiar los principios básicos del cálculo de probabilidades. 2. 1. 1. Propiedades matemáticas de la probabilidad a) La probabilidad de que un suceso determinado ocurra estará siempre situada entre los límites 0, que significa la seguridad absoluta de que ese suceso es imposible que ocurra (P(x) = 0), y 1, que representa la certeza absoluta de que ese suceso ocurrirá (P(x) = l). Luego la probabilidad de que un suceso x ocurra nunca será mayor que 1 ni menor que 0: 0 < P(x) < 1 b) Según la ley de la suma de la probabilidad, si dos sucesos determinados es imposible que sucedan a la vez, es decir, son mutuamente excluyentes, la probabilidad de que uno de los dos ocurra será igual a la probabilidad de uno más la probabilidad del otro: P(A o B) = P(A) + P(B) por la misma razón, si dos sucesos son mutuamente excluyentes (P (A o B)) y además son los únicos posibles, entonces: P(A) = 1 - P(B) y P(B) = 1 - P(A) Esta regla también se puede utilizar cuando se trate con más de dos sucesos y sean todos los posibles: P(A o B o C o ... F) = P(A) + P(B) + P(C) + ...P(F) = 1 y la probabilidad de que no ocurra el suceso A dentro de todos los posibles (que sería 1) es: 1 - P(A) = P(B) + P(C) + P(D) + ...P(F) Por otro lado, en el caso de que los sucesos estudiados no fueran excluyentes, es decir, que exista la posibilidad de que sucedan simultáneamente, la probabilidad de que suceda uno u otro será igual a la probabilidad del primero más la probabilidad del segundo menos la probabilidad de que sucedan ambos al mismo tiempo: P(A o B) = P(A) + P(B) - P(AB) donde P(AB) es la probabilidad de que sucedan simultáneamente A y B. EJEMPLO En una biblioteca universitaria, se dan las siguientes proporciones de distintos tipos de usuarios activos: - profesores (pr) 0.1 - 10% alumnos de primer ciclo (pc) 0.5 - 50% alumnos de segundo ciclo (sc) 0.3 - 30% alumnos de tercer ciclo (tc) 0.1 - 10% ¿Cuál es la probabilidad de que la próxima persona que entre en la biblioteca no sea un profesor? Si tenemos en cuenta que son mutuamente excluyentes: P(pr) + P(pc) + P(sc) + P(tc) = 1 Por tanto: 1 - P(pr) = P(pc) + P(sc) + P(tc) y sustituyendo los valores: 0.1 + 0.5 + 0.3 + 0.1 = 1 1 - 0.1 = 0.5 + 0.3 + 0.1 = 0.9 hay una probabilidad de] 90% de que el próximo usuario no sea un profesor. EJEMPLO La proporción de usuarios que son mujeres (P(m» de una biblioteca pública es 0.6 y la de usuarios que se llevan libros en préstamo (P(p» a sus domicilios es 0.5. ¿Qué probabilidad hay de que un usuario se lleve un libro prestado o sea mujer? Si tenemos en cuenta que ambos sucesos no son mutuamente excluyentes: P(M 0 p) = P(M) + P(P) - P(MP) P(m o p) = 0.6 + 0.5 - (0.6 x 0.5) = 1.1 - 0.3 = 0.8 hay un 80% de probabilidades de que un usuario se lleve un libro prestado o sea mujer. c) Según la ley de la multiplicación la probabilidad de que ocurran conjuntamente dos o más sucesos será igual a la probabilidad de que ocurra uno multiplicado por la probabilidad condicional de que ocurra el otro, una vez ocurrido el ant erior. En el caso de dos sucesos se formularía: P(AB) = P(A) P(BIA) = P(B) P(AIB) donde P(BIA) y P(AIB) representan las probabilidades condicionales. La probabilidad condicional se refiere a que la posibilidad de que suceda uno esté condicionada por la posibilidad de que suceda el otro. Si la ocurrencia de un suceso no depende de que suceda otro, se dice que ambos sucesos son independientes y entonces: P(AIB) = P(A) y P(BIA) = P(B) Diremos, por tanto, que dos sucesos son independientes si el conocimiento de que uno de los acontecimientos ha ocurrido no ayuda a predecir el otro. Si A y B son independientes: P(AB) = P(A) P(B) Si lo que se estudia son las probabilidades de que ocurran simultáneamente más de dos sucesos, entonces: P(ABC) P(AB) P(CIAB) = P(A) P(BIA) P(CIAB) Diríamos, por tanto, que los sucesos A..... N son independientes si la probabilidad conjunta de todos los subconjuntos que pueden formarse es el producto de las probabilidades individuales. EJEMPLO Los datos de la siguiente tabla se refieren a una muestra tomada de los usuarios de una biblioteca pública en la que se consignan el número de hombres (h) y mujeres (m) que se han llevado prestados libros (1) y vídeos (v). H M 1 10 500 v 400 20 Total 410 520 Total 510 420 930 A la vista de estos datos, parece que las mujeres prefieren claramente llevarse en préstamo libros y los hombres vídeos, luego, existe dependencia de la variable hombre sobre los vídeos y de la variable mujer sobre los libros. ¿Cuál es la probabilidad de que un hombre (h) se lleve un vídeo (v)? P(hv) = P(h) P(vlh) P(h) = 410/930 = 0.44 (probabilidad de ser hombre) P(vih) 4001410 = 0.97 (probabilidad de que un hombre se lleve un vídeo) luego: P(hv) 0.44 - 0.97 = 0.42 Lo que traducido a porcentaje nos da una probabilidad del 42% de que el usuario sea un hombre y se lleve prestado un vídeo. Se puede juzgar un suceso por su nivel de significación, y este nivel lo especifica el investigador. El concepto nivel de significación o grado de confianza se utiliza en todas las pruebas estadísticas basadas en hipótesis. Se trata de poner una frontera, en un determinado lugar, para poder demostrar que no ha intervenido el azar. El nivel de significación vendrá expresado en términos de probabilidad (P) para decirnos en qué medida podemos estar seguros, es decir, podemos tener confianza en la intervención de otros factores y no del azar. Este nivel de confianza, como mínimo, debe ser del 5%, que es el considerado más bajo en ciencias sociales, expresado como nivel de significación o de probabilidad P = 0.05, que sería lo mismo que decir que 5 de cada 100 veces puede intervenir el azar. Mucho mejor sería que P fuera igual a 0.01, es decir que sólo 1 vez de cada 100 el resultado se debe a la casualidad. Un nivel de probabilidad superior a 0.05 no se debe utilizar, pues no debemos olvidar que la elección del nivel de significación implica el grado de confianza que podemos tener en los resultados del análisis [véase capítulo 41. Por último, es preciso recordar que el cálculo de las probabilidades asociadas a un suceso dado es diferente para cada prueba estadística. 2.2. Modelos de distribución 2.2.1. La distribución normal La distribución de frecuencias conocida como distribución normal es, por la cantidad de fenómenos que explica, la más importante de las distribuciones estadísticas. A la distribución normal también se la denomina con el nombre de campana de Gauss, pues si representamos las frecuencias de los valores de una variable en un diagrama, la curva resultante tendrá forma de campana. Gauss es el nombre del matemático que la describió por primera vez, al darse cuenta de que muchas de las distribuciones de frecuencias de variables estudiadas en distintos campos adoptaban esta forma. Para que una variable tenga una distribución normal, su variabilidad debe obedecer a la influencia de gran número de causas independientes entre sí, que el efecto de cada una de ellas sea pequeño en comparación con la suma de todos los efectos juntos y que las causas actuén de forma aditiva. Esto es así porque una variable en la que una única causa sea la que determine la variablidad tendrá una distribución menos normal que otra en la que influyan múltiples causas. En teoría, la distribución normal de las frecuencias de una variable, tiene las siguientes características: a) b) c) d) Forma de campana. Al representar gráficamente las frecuencias de una variable dada y comprobar que adopta forma de campana, es bastante probable que tengamos ante nosotros una distribución de frecuencias normal, aunque no sólo se caracteriza por su forma de campana. La forma de la curva nos indica además que los valores o muy altos o muy bajos de la variable son poco frecuentes, y que la mayor parte de los mismos están distribuidos alrededor del valor de la media. Simetría. Al trazar una recta que divida la campana por el centro, las dos partes resultantes serán exactamente iguales. Esto quiere decir que el 50% de los valores de la variable estudiada estará en cada una de las dos partes (ver gráfico adjunto). La media, la mediana y la moda de una distribución normal tienen el mismo valor. Los parámetros más característicos de una distribución normal son la media y la desviación típica. Una distribución normal la representaremos como x -4 N (y, a). La dispersión de esta distribución está en función de su desviación típica. Teóricamente, las colas de la campana, es decir, los extremos, no llegan a tocar nunca el eje horizontal de la representación gráfica, sino que a lo largo de una distancia infinita se supone que ambos lados se van acercando a él progresivamente. Esta es una característica matemática de la curva normal que no se corresponde con la realidad, puesto que las frecuencias de una variable estudiada nunca pueden ser infinitas. Aunque una distribución normal perfecta es muy difícil que se dé en la realidad, es mucho más frecuente que nos encontremos con distribuciones de frecuencias parecidas a la normal. Esto quiere decir que, en términos generales, se considera una distribución de frecuencias normal cuando las mismas están mayoritariamente distribuidas en valores cercanos a la media, y va disminuyendo la frecuencia conforme nos acercamos a los valores extremos de la variable. Con vistas a su tratamiento estadístico, toda distribución de frecuencias casi normal es tratada como normal. 2.2.1.1. Áreas bajo la curva normal La distribución normal tiene una gran importancia estadística porque la proporción relativa de los valores situados en una posición determinada de la curva son siempre los mismos. Por lo tanto, se puede saber con exactitud donde estará la proporción de casos que están en el interior de un intervalo determinado de la curva, y la podemos situar en la misma tomando como referencia la media y la desviación típica de esa distribución. En una distribución normal, el 68.27% de los valores de la variable se encuentran entre una desviación típica por encima y por debajo de la media, el 95.45% entre 1.96 desviaciones típicas por encima y por debajo de la media y el 99.73% entre 2.58 desviaciones típicas por encima y por debajo de la media (ver gráfico anterior). No llega al 100% porque ya hemos dicho que teóricamente las colas de la curva se alargan hasta el infinito. EJEMPLO Si representamos gráficamente los datos del ejemplo del cálculo de la desviación típica con frecuencias (véase apartado 1.1.2.6), observamos que se distribuyen siguiendo el modelo de la distribución normal. La media de esta distribución de frecuencias es 10.31 y la desviación típica es 3.98. Por tanto, -ls es 6.33 y +ls es 14.29, entre ambos valores está el 68.27% de los sucesos observados, o sea, más de la mitad de los usuarios están comprendidos en ese intervalo, es decir se llevan entre 6 y 14 libros al año. Y entre -1.96s (2.51) y +1.96s (18.11) están el 95.45% de los lectores que piden libros prestados a la biblioteca (gráfico anterior). 2.2.1.2. Distribución normal estándar Cualquier distribución normal se puede convertir en una distribución normal estándar traduciendo cada uno de los valores de la variable a valores z. Los valores z son los valores normalizados de la variable x que indican el valor de la misma en términos de unidades de desviación típica respecto a la media. La fórmula para determinar el valor de z es la siguiente: x-x s= s donde: x valor de la variable. x S media de la muestra. desviación típica de la muestra. Un valor z se refiere siempre a la posición de un valor cualquiera de la variable con respecto a la media. Mientras que la desviación típica de una distribución es un valor invariable y constante, un valor z se refiere a la posición relativa en la curva de un valor determinado de la variable a la que representa en relación a la media. Los valores de x expresados en términos z son constantes y están situados entre -3.99 y +3.99, convirtiendo en 0 el valor de la moda, la media y la mediana y en 1 la desviación típica. Existen tablas (ver apéndice) en las que ya está calculado el porcentaje de observaciones que está comprendido entre la media y un determinado valor de z. Por lo que la distribución será normal con los parámetros 11 = 0 y <y = 1, o lo que es igual z -> N(O, 1) EJEMPLO Siguiendo con el ejemplo anterior, la siguiente tabla contiene los valores de la variable y a continuación su equivalente en valores z calculados de la siguiente forma: 1- 10.31 Z=. -2.34 3.98 X 1 2 3 4 5 6 7 8 9 10 z x z -2.34 -2.09 -1.83 -1.58 -1.33 -1.08 -0.83 -0.58 .33 -0.08 11 12 13 14 15 16 17 18 19 20 +0.17 +0.42 +0.67 +0.93 +1.18 +1.43 +1.68 +1.93 +2.18 +2.43 Estos mismos valores están representados en el gráfico adjunto. Ahora podemos preguntar qué posición ocupa, con respecto al total, un lector al que se le han prestado 6 libros en un año. El valor z de 6 es -1.08, al ser negativo ya nos está indicando que está por debajo de la media. Para conocer exactamente qué porcentaje de lectores se han llevado más o menos libros prestados al año que al que se le han prestado 6, hay que consultar la tabla del apéndice, donde ya está calculado el porcentaje de área de la curva normal estándar comprendido entre la media y un determinado valor de z. Antes de seguir adelante con el ejemplo, hay que explicar la forma de consulta de la tabla. En la primera columna (valor z con un decimal) y en la primera fila (el segundo decimal de z) están los valores absolutos de z, esto es, sin tener en cuenta si son de signo positivo o negativo, pues al ser la curva simétrica las dos mitades son iguales, y, en consecuencia, el área bajo la curva normal entre un valor z positivo o negativo y la media es la misma. Por esta razón, y a efectos de simplificar la tabla, al porcentaje que represente cualquier valor z positivo o negativo, hay que sumarle un 50%. Volviendo al ejemplo, el valor z -1.08, que representaba al usuario que había hecho uso del préstamo 6 veces en un año, para encontrar su posición en la tabla miramos en la primera columna hasta el valor 1.00 y en la primera fila el valor 0.08 (para el segundo decimal), el lugar de la tabla donde se cruzan ambos da un valor de 35.99%, al que hay que sumarle 50.00%, dando un resultado de 85.99%, que es el porcentaje de lectores que durante un afío han hecho más uso del préstamo bibliotecario que él y por consiguiente sólo el 14.01% de los usuarios de la biblioteca han realizado menos préstamos que él en el periodo de un año. También podemos fijamos en un lector que ha realizado 17 préstamos en un año. El valor z de 17 es 1.68, que al ser un valor positivo ya sabemos que está por encima de la media. Consultando la tabla, el porcentaje que le corresponde es 45.35% al que sumándole el 50.00%, arroja un resultado de 95.35%, lo que significa que este lector ha hecho más uso del préstamo que el 95.35% de los usuarios de la biblioteca y sólo un 4.65% han solicitado más libros que él en un año. Los valores de z, al ser una constante, se pueden utilizar para comparar distintas distribuciones, siempre y cuando todas ellas tengan la consideración de normales. En el mundo bibliotecario, como en el resto de las ciencias sociales, muchos fenómenos pueden representarse mediante distribuciones normales, pero este hecho debe ser probado con estudios rigurosos. Es lógico esperar que en cuanto en nuestro campo aumente la investigación, determinados fenómenos se puedan explicar a partir del modelo de distribución normal. Cuando la distribución de frecuencias de una variable, resultante de una selección por muestreo, no es normal o casi normal, no se podrán atribuir las propiedades de la distribución normal. 2.2.2. La distribución binomial La distribución binomial es un tipo de distribución de frecuencias de una variable extraída de una muestra aleatoria que se puede usar cuando el tipo de estudio a realizar consiste en clasificar las observaciones en dos categorías de miembros, como por ejemplo hombre-mujer, jóvenes-adultos, etc., o en dos categorías de casos, como por ejemplo éxito-fracaso, positivo-negativo, etc. A una de las categorías la llamaremos p y a la otra q, de modo que si conocemos cuál es la proporción que está encuadrada en una de las categorías, puesto que sólo hay dos posibles y ambas son mutuamente excluyentes, sabremos también la proporción de la otra categoría, ya que la suma de ambas será el total de las observaciones. De modo que, aplicando la ley de la suma de las probabilidades, cuando éstas son dos y mutuamente excluyentes, recuérdese que: P(A o B) = P(A) + P(B) = 1 luego: 1 - P(A) = P(B) entonces, en términos de distribución binomial esto se expresaría: p+q=1 q =1 - p En la distribución binomial, la proporción de elementos encuadrados en cada una de las dos categorías en la población es constante y no varía al modificar el tamaño de la muestra y, en consecuencia, la probabilidad de encontrar elementos encuadrados en una de las dos categorías es siempre la misma y no se modificará cualquiera que sea la combinación de las dos categorías observadas en la muestra. En lo referente a la forma de la distribución binomial, ésta depende tanto del valor de n como de p. Si p = q, es decir, cada uno de ellos tiene un valor de 0.5, la distribución es simétrica. Por otro lado, cuando n tiende al infinito, la distribución binomial tiende a parecerse a la normal, es decir, cuando n es suficientemente grande (n > 30), la forma de la binomial se parece a la normal. En este último caso se le pueden aplicar las propiedades de la distribución normal en el sentido de que el 68.27%, el 95.45% y el 99.73% del área total de la distribución están encuadrados entre 1, 1.96 y 2.58 desviaciones típicas por encima y por debajo de la media respectivamente. Al ser la distribución binomial una distribución de la población debemos saber de antemano cual es el valor de p y, por lo tanto de q, y en consecuencia, tanto la media, como medida de tendencia central, como el error típico de la binomial, como medida de dispersión, son parámetros y no estadísticos. La media de la distribución binomial se calcula mediante la siguiente fórmula: Pb = np donde: n tamaño de la muestra. p proporción de la categoría considerada éxito. Para medir la dispersión de los valores de la variable con respecto a la media se usa el llamado error típico o desviación típica de la distribución binomial que mide la variación de las frecuencias de resultados encuadrados en una de las dos categorías con respecto a la media. La fórmula es: Vb = npq donde: n y p significan lo mismo que en la media y q es 1 - p. La distribución binomial se puede utilizar también para calcular la probabilidad de observación de una variable cualquiera estudiada desde el punto de vista binomial. Es decir, si de una muestra aleatoria sabemos cuál es la proporción de casos encuadrados en una de las categorías, y en consecuencia sabemos también cual es la proporción de la otra categoría, podremos conocer cual es la probabilidad de observar un determinado valor de la variable x. También se puede usar para calcular cual es la probabilidad de obtener los valores más extremos. La fórmula es la siguiente: n! pxqn-x P (x) x!(n-x)! P donde: P x n! probabilidad. valor de la variable. factorial de la muestra. p proporción de casos encuadrados en la categoría considerada éxito. q proporción de casos encuadrados en la categoría considerada fracaso. EJEMPLO En una biblioteca de cada 100 usuarios activos 12 consultan el catálogo en línea y suelen tardar 10 minutos por consulta. Teniendo en cuenta que cada hora entran 24 usuarios queremos averiguar cual es la media de usuarios por hora en el catálogo, si éste podrá atender todas las consultas en una hora con un 95% de confianza y qué probabilidad hay de que el catálogo esté desocupado o de que haya usuarios esperando para hacer una consulta. Consideraremos éxito el uso del catálogo, por tanto: n = 24 p = 12 / 100 = 0.12 q = 1 - 0.12 = 0.88 Pb= np = 24 - 0.12 = 2.88 Por lo que 2.88 usuarios a la hora es la media de ocupación del catálogo: Vb = npq = 24 * 0.12 * 0.88 = 1.59 En conclusión, 1.59 es el error típico de la binomial. Para conocer el máximo número de usuarios que podrá atender el catálogo en una hora, aplicamos la propiedad de la distribución normal, que dice que el 95% de los casos están encuadrados entre -1.96 y +1.96 desviaciones típicas de la media. Lo que en la binomial se debe interpretar como: Pb±1.96Vb y sustituyendo: 2.88 + (1.96 ! 1.59) = 6 2.88 - (1.96 ! 1.59) = -0.24 Con el 95% de confianza sabemos que en una hora habrá un mínimo de 0 y un máximo de 6 usuarios. Como cada usuario emplea 10 minutos en hacer una consulta, cuando tengamos el máximo de usuarios en una hora el catálogo podrá atenderlos a todos. Para calcular la probabilidad de que no haya nadie en el catálogo aplicamos la fórmula de la probabilidad de la binomial: 24! 0.120 -0.88424-0 = 0.05 P(0) = 0! (24-0)! Por tanto, la probabilidad de que el catálogo no esté siendo utilizado es 0.05 (5%). El bibliotecario sabrá entonces que media hora de cada diez el catálogo estará desocupado. Para determinar la probabilidad de que haya alguien esperando para usar el catálogo es preciso calcular la probabilidad de que haya más de 6 usuarios (7) en una hora, puesto que las consultas duran 10 minutos: 24! P(7) = 0.12 7 -0.88 24-7 = 0.02 7! (24 - 7)! Es, por consiguiente, mayor la probabilidad de que no haya nadie que la de que haya alguien esperando. Tan sólo a lo largo de 10 horas de apertura de la biblioteca en 12 minutos habría alguien esperando para usar el catálogo. 2.2.3. Distribución Poisson El proceso Poisson es un modelo usual para llegadas aleatorias, para la aparición de sucesos puntuales sobre un soporte continuo; como, por ejemplo, pueden ser las llegadas de usuarios a la sección de referencia o préstamo. Si el número de observaciones es muy grande y la probabilidad de que ocurra la característica estudiada es muy pequefía, nos encontramos en unas circunstancias en que la distribución binon-úal tiende hacia la distribución Poisson. Si los intervalos de observación los dividimos en n segmentos muy pequeños, con lo que n será muy grande, y vemos si en cada uno de estos intervalos ocurre, o no, el suceso estudiado y si la probabilidad (p) de ocurrencia de este suceso en cada segmento es muy pequeña, podemos considerar que se trata de observar en n segmentos si aparece, o no, el suceso estudiado. Por tanto nos encontraríamos en una distribución binomial y podemos considerar que la distribución Poisson corresponde a un caso límite de la binomial, cuando n tiende a infinito y p tiende a cero, aunque el número medio de sucesos esperados (np) permanece constante. Supondremos que un proceso Poisson se da bajo las siguientes condiciones: a) Los sucesos aparecen aleatoriamente y pueden ocurrir en un intervalo o en otro, y son independientes, es decir, que la ocurrencia de un suceso no tiene efecto en la ocurrencia de otro. Por tanto, conocer el número de sucesos en un intervalo no es garantia para predecir el número de sucesos en otro intervalo. Es estable, lo que significa que a largo plazo se produce un número constante de sucesos (.Z) por unidad de observación. La probabilidad de que dos sucesos ocurran simultáneamente en un intervalo muy pequeño es cero. b) c) La variable Poisson se define a partir de este proceso como: k = número de sucesos en un intervalo de longitud fija. En la distribución Poisson la probabilidad de observar la variable de valor k viene dada por la fórmula: eOOk P(k) = k! donde: P(k) O e k! es la probabilidad de que k ocurrencias sucedan en una unidad de tiempo (número de éxitos en n intentos)es el ritmo promedio de llegada por unidad de tiempo. es la base de los logaritmos naturales (aproximadamente 2.71). es el factorial de k EJEMPLO Las consultas a la sección de referencia de una biblioteca son de un promedio de 4 por hora. ¿Cuál es la probabilidad de que en una hora no se haga ninguna consulta, y de que se realicen 2? Para conocer la probabilidad de que no haya ninguna consulta tenemos que calcular la probabilidad para k = 0: e-440 P(O) = e -4 0.0183 0! La probabilidad de que no se realice ninguna consulta en una hora es de 0.0183 [1.83%]. Para los valores de e-' véase la tabla del Apéndice. La probabilidad de que se realicen dos consultas seria: e-442 P (2) = e-4*16 = = 8e-4 =8(0.0183) = 0.14641[14.6%] 2! 2 2.3. Problemas 1) 2) 3) 4) 5) 6) N' ref. Frec. Las consultas al catálogo en línea de una biblioteca son de un promedio de 2 por hora. Si asumimos una distribución Poisson ¿Cuál es la probabilidad de que en una hora no se realice ninguna consulta? ¿Y tres consultas? De 20 registros cogidos al azar del catálogo de una biblioteca universitaria 11 eran de obras en español, 6 en inglés, 2 en francés y una en italiano. ¿Cuál es la probabilidad de coger un registro en cada uno de los idiomas? ¿Cuál es la probabilidad de coger uno en espaiíol o francés? Si entre los registros del problema anterior el 80% fueran de monogafías y el 20% restante de publicaciones periódicas... ¿Cuál sería la probabilidad de coger un registro de monografías en inglés? Si de la población de usuarios activos de una biblioteca se sabe que el 70% hace uso del préstamo ¿Cuál sería la media para una muestra de 30 y cuál el número máximo de usuarios que se podría esperar con un 95% de confianza? La proporción de hombres y mujeres entre los usuarios de una biblioteca es del 45% y 55% respectivamente. Si tomamos una muestra aleatoria de 5 ¿Cuál es la probabildad de que dos ellos sean mujeres? Se ha tomado una muestra al azar de 80 artículos de revista y se ha anotado el número de referencias bibliográficas de cada uno. La siguiente tabla representa las frecuencias observadas: 5 2 6 5 7 8 8 10 9 11 10 13 11 12 12 9 13 6 14 3 15 1 ¿Entre qué valores de la variable estará el 68.27% de la muestra? ¿Y el 95.45%? ¿Qué posición ocupará con respecto a los demás un artículo que tenga 12 referencias? ¿Y uno que tenga sólo 6? Moya Anegón, Félix, López Gijón, Javier, García Caro, Concepción. Técnicas cuantitativas aplicadas a la biblioteconomía y documentación--Madrid:Síntesis,1996.174p. 3 - ESTADÍSTICA INFERENCIAL Como hemos visto, la estadística comprende dos grandes apartados: uno se ocupa de la descripción o resumen de datos, para poder extraer de ellos la información que resulte más relevante (estadística descriptiva); el otro se ocupa de la inducción, que nos permite hacer generalizaciones de una población a partir de una muestra extraída de tal población (estadística inductiva o inferencial). En la inferencia estadística partimos de las frecuencias observadas de una variable y pretendemos inferir el modelo probabilístico que ha generado los datos. Con la estadística inferencial además de inferir las características de una población por una muestra de ella, se intenta igualmente hacer predicciones y probar hipótesis. Para hacer inferencias correctas tenemos que conocer el modelo de distribución al que mejor se ajustan los datos, anteriormente (apartado 2.2) hemos estudiado los modelos de distribución de probabilidad. Tendremos también que seleccionar una muestra probabilística (se verá en el siguiente apartado), que nos asegure que podemos hacer inferencias sobre la población. Y después habrá que someter estas muestras a pruebas estadísticas (lo veremos en el Capítulo 4) que nos permitan aceptar o rechazar hipótesis, y en consecuencia poder tomar decisiones. 3.1. Muestreo Las observaciones se pueden hacer sobre el total de posibles ocurrencias de la variable, con lo que estaríamos trabajando con toda la población, entendiéndola como un conjunto homogéneo de elementos en los que se estudia una característica dada. Pero la realidad nos enseña que muchas veces no es posible estudiar toda la población, sea por excesos de costos, tiempo, etc. Cuando nos encontramos con es te problema se suele resolver seleccionando un conjunto representativo de elementos de esa población, que se denomina muestra. Si esta muestra es representativa podemos conseguir una información parecida a la que se obtendría del estudio de toda la población, pero evitamos las dificultades que acabamos de plantear. El objetivo consiste en determinar una o más características de la muestra -estadísticos- que nos dé información de las correspondientes características de la población -parámetros-. En resumen, lo que pretendemos es obtener información sobre la población a partir de la muestra de dicha población. El principal problema que nos podemos encontrar es que la muestra sea parcial o sesgada, es decir, que no sea representativa de la población, con lo que no estaríamos en condiciones de hacer inferencias sobre la población a partir de esta muestra no representativa. Este problema se puede resolver utilizando un tipo de muestreo adecuado. 3.1.1. Muestreo probabilístico Existen cuatro tipos de muestreos de probabilidad: aleatorio, sistemático, estratificado y por conglomerados. En todo caso, a partir de muestras obtenidas por cualquiera de estos tipos de muestreo es posible realizar inferencias estadísticas. Los muestreos de probabilidad se basan en que todo miembro de la población debe tener una probabilidad conocida de ser incluido en la muestra. 3.1.1.1. Muestreo aleatorio simple Tenemos un muestreo aleatorio simple cuando se cumplen las condiciones de que cada elemento de la población tiene la misma probabilidad de ser elegido y que las observaciones se realizan con reemplazamiento, es decir que la población es idéntica en todas las observaciones; lo que nos obligará a que la población esté claramente definida antes de que la muestra sea elegida. Si el tamaño de la población (N) es grande respecto al tamaño de la muestra (n) es casi indiferente realizar el muestreo con o sin reemplazamiento. Para seleccionar una muestra por este método, dada una población conocida, se suelen utilizar las tablas de números aleatorios. EJEMPLO Una asociación de bibliotecarios desea conocer la situación de las bibliotecas municipales de su región, para lo cual cuenta con una lista de todas las bibliotecas municipales que existen en dicha región. A partir de una tabla de números aleatorios puede coger tantos números como fueran necesarios para la muestra y después ver estos números a qué bibliotecas corresponden, con lo que contaría con una muestra representativa de la población de bibliotecas municipales, que le permitiría poder hacer ingerencias sobre la población (el tamaño de la muestra que debe elegirse se estudiará en un apartado posterior). Otro ejemplo de muestreo aleatorio, aunque también se podría utilizar cualquier tipo de los que estamos viendo, es el caso de una biblioteca que se va a automatizar y quiere conocer el tamaño que tendrán los índices automatizados. Por tanto necesita saber la media de autoridades que tienen las fichas del catálogo manual. Si se decide que el tamaño de la muestra será de 10 por cada 100 registros del catálogo, una vez conocido el número de registros del catálogo manual sabremos cuantos necesitamos para la muestra y, después, podemos recurrir a una tabla de números aleatorios para extraer los que corresponderán a los registros que tenemos que cotejar para realizar el estudio. 3.1.1.2. Muestreo sistemático Cuando los miembros de la población a estudiar están ordenados en listas se puede utilizar el muestreo sistemático. Para elegir esta muestra se recorre la lista y tomamos cada k-ésimo individuo, empezando por un caso escogido aleatoriamente entre los primeros k individuos. Para conocer el valor de k podemos dividir la población (N) por el tamaño de la muestra que se desea (n). EJEMPLO Una biblioteca quiere realizar una encuesta entre los habitantes que pertenecen a su jurisdicción y que no son usuarios de la biblioteca, para conocer los motivos por los que no utilizan la biblioteca y poder tomar medidas que aminoren este fenómeno. La biblioteca tiene un censo en el que constan todos los habitantes que componen la jurisdicción a la que sirve y se han tachado los que son usuarios de la biblioteca, ya que se ha cotejado con el fichero de usuarios. Una vez que esta biblioteca cuenta con la lista de personas de su jurisdicción que no son usuarios puede utilizar este método de muestreo. Supongamos que esta lista consta de 1.800 personas y que se desea elegir una muestra de 90 personas, al calcular Nln nos da 20, luego el valor de k es 20. Después, habría que elegir entre los 20 primeros (k) un número al azar, por ejemplo a partir de una tabla de números aleatorios. Supongamos que el número es 8. Ahora tan sólo habrá que ir eligiendo de la lista el miembro 8, 28, 48... (es decir 8, 8+k, 8+2k ... ) 3.1.1.3. Muestreo estratificado El muestreo aleatorio simple se suele utilizar cuando se asume que los elementos de la población son homogéneos respecto a las características a estudian Por el contrario, cuando se dispone de información sobre la población se debe tener presente a la hora de seleccionar la muestra. Esto es lo que ocurre en el caso del muestreo estratificado. Denominamos muestreo estratificado a aquel en que los elementos de la población se dividen en clases o estratos. Para elegir la muestra se asigna una cuota de miembros a cada clase, y después se escogen los elementos por muestreo aleatorio simple dentro de cada clase. Con el muestreo estratificado lo que pretendemos es que la muestra sea altamente representativa de la población, pues cuando en ésta existen clases o categorías podemos pensar que los miembros de una clase están más relacionados entre sí que con la población vista como un todo. Lo que se está intentado es aumentar la eficacia en el diseño del muestreo. EJEMPLO Una biblioteca universitaria tiene 600 usuarios de primer ciclo, 300 de segundo y 100 investigadores y se pretende hacer un estudio de usuarios. Quizá lo mejor -esperando distintos comportamientos entre estos tipos de usuarios- es hacer una muestra estratificada, en la que se va a elegir una fracción de muestreo de 1/10 para los tres estratos, es decir, 60 usuarios de primer ciclo, 30 de segundo y 10 investigadores, nos debe proporcionar resultados más fiables que una muestra aleatorio simple. Una vez conocido el número de miembros de cada estrato (60, 30, 10) éstos se pueden elegir por muestreo aleatorio simple. 3.1.1.4. Muestreo por conglomerados Puede ocurrir que el tamaño de la población no se conozca, con lo que no podríamos aplicar los muestreos anteriores. En estos casos podemos recurrir a un muestreo por conglomerados. Para realizar este tipo de muestreo partimos de considerar que los elementos de la población se encuentran agrupados en conglomerados, de los que sí conocemos su número. Lo que hacemos es dividir la población en conglomerados y seleccionar entre éstos. EJEMPLO Supongamos que queremos conocer la opinión que se tiene en Espafía sobre las bibliotecas, el uso que hacen los habitantes y el servicio que prestan. Como la población está distribuida en provincias podemos suponer que un conjunto de estas provincias -conglomerado- es una muestra representativa de la población total. Luego podríamos elegir al azar algunos de estos conglomerados, después seguiríamos eligiendo al azar los siguientes elementos (municipios, barrios, calles, etc.) hasta llegar a las personas a consultar. Por tanto en este tipo de muestreo no seleccionamos nuestros elementos directamente, sino que seleccionamos grupos o conjuntos de elementos. En el muestreo por conglomerados lo que pretendemos es seleccionar grupos que sean muy heterogéneos. Como se puede ver, la estratificación y el conglomerado son ideas opuestas. En la estratificación queremos que las diferencias entre los estratos sean grandes y que internamente sean homogéneos. En los conglomerados queremos que existan pocas diferencias entre ellos y que sean muy heterogeneos internamente, es decir que recojan la variabilidad de la población dentro de cada uno. Podemos concluir el muestreo probabilístico diciendo que si tenemos información previa ésta debe utilizarse para subdividir la población y poder contar con una muestra de la mayor representatividad posible. Cuando ya contamos con las subpoblaciones homogéneas la selección la podemos llevar a cabo por medio del muestreo aleatorio simple. 3.1.2. Muestreo sin probabilidad La característica de este tipo de muestreos es que no se conoce la probabilidad que tienen los miembros de la población de ser elegidos. Suelen ser los criterios del investigador los que deciden los individuos que hay que incluir. El problema que plantea este tipo de muestreos es que no podemos conocer los margenes de error y por tanto no podemos utilizar la inferencia estadística. La poca fiabilidad de estos muestreos nos debe llevar a preocupamos por contar con muestreos probabilísticos en los estudios que realicemos en nuestro campo, si queremos que tengan una base sólida y que los resultados nos ofrezcan garantías. 3.2. Estimación de punto Si se ha tomado una muestra no sesgada de la población, deberíamos esperar que la media de la muestra pueda ser una estimación razonable de la media de la población. Estas estimaciones se conocen como estimaciones de punto, pero no es probable que la media de la muestra sea idéntica a la media de la población. Es decir, en este tipo de estimaciones lo que pretendemos es determinar los parámetros -de la población- a partir de los datos muéstrales. La variable que queremos estudiar nos servirá para elegir un modelo posible, que seleccionaremos en base a la información previa disponible y al análisis de los datos de la muestra. Como dijimos anteriormente, una de las pretensiones del muestreo y del cálculo de los estadísticos de las muestras es obtener información sobre la población de la que el muestreo ha sido tomado. Es decir, deseamos deducir los probables parámetros de la población mediante el cálculo de los estadísticos de la muestra. 3.2.1. Distribución muestras de la media A veces lo que nos interesa es hacer un estudio de medias, y no de estadísticos de frecuencias o proporciones como en la prueba binomial o la prueba de "ji" cuadrado. Las medias de todas las muestras tomadas de una población forman una distribución de frecuencias conocida como distribución de las medias de la muestra. La distribución normal es importante en la teoría del muestreo porque describe situaciones en la que se han escogido muestras aleatorias de poblaciones sin tener presente la identidad de la distribución de frecuencias que describe la población original. Si bien una población puede ser asimétrica, la distribución de las medias de muestras aleatorias que provienen de la población se inclinará a ser noitnal conforme aumente el número (n) de muestras. La media de las medias de la muestra sería ( X (¦ X ) dividido por n n) igual al sumatorio de las medias de la muestra ¦X x n= n Pues bien, x n está muy cerca de la media de la población ( X n=P) Lo que estamos exponiendo se formula a partir del teorema que dice: si de una población normal de magnitud N, con una media P y una varianza de V2 se extraen numerosas muestras al azar, la distribución de las medias de las muestras sera normal, con la media P y la varianza V2 n Esto quiere decir que si conocemos la distribución de las medias de la muestra ( X n) ,estamos en condiciones de saber el valor de la media de la población (P). El teorema que acabamos de enunciar lo podemos encuadrar en uno más general conocido por el nombre de teorema del límite central, que dice: Si se extraen diversas muestras de magnitud n al azar de una población cualquiera, con una media de P y una varianza de V', tenemos que a medida que n crece, la distribución de las medias de la muestra se aproxima a la normalidad, con la media P y la varianza V2 n. Lo que estamos diciendo es que para cualquier distribución, no necesariamente normal, con una media de P y una varianza de V2 , la distribución de las medias de muestras aleatorias seleccionadas de la población es aproximadamente normal. El teorema del límite central nos dice que cuando los resultados de un experimento son la consecuencia de un gran conjunto de causas independientes, que actúan sumando sus efectos, siendo los efectos individuales poco cosiderables si se comparan con el conjunto, podemos esperar que los resultados se adapten a una distribución normal. En realidad, esto se puede considerar una generalización de las propiedades de las medias muéstrales. Si por este teorema podemos decir que la distribución de las medias de las muestras es normal, nos podríamos preguntar cuáles son su media y su desviación típica. Este teorema nos dice que la media de la distribución de las medias de las muestras es P, es decir la media de la población; y la desviación típica de la distribución es V n. Como puede observarse, conforme n aumenta, la desviación típica de la distribución de las medias de las muestras disminuye. La desviación típica de la distribución de las medias de las muestras( V como el error típico de la media es decir V V = n .) se conoce también n x Como podemos ver el error típico ha sido definido en términos de la desviación típica de la población (a), ésta no se encuentra disponible siempre, pero la desviación típica de la muestra (s) es una aproximación razonable de la desviación típica de la población. Por tanto si no conocemos a, la magnitud del error típico de la media puede ser tomado como s n que podemos representar como s x ( s x s n ) - Es decir, s es una estimación sesgada dea y se aplica sólo para muestras amplias (mayores de treinta). En resumen, las medias y las desviaciones típicas de las tres clases de distribuciones son: Población Muestra Distribución demuestreo Media p x p Desviación típica a S rV n Hemos visto cómo la distribución de muestreo de las medias X- será Nor (,U, @;ln Para servimos de la tabla normal hay que convertir los datos en normales estándar, es decir, obtener una distribución z que sea N(O,l) (véase apartado 2.2.1): z 3.3. xP V n Estimaciones por intervalos 3.3.1. Intervalo de confianza Además de hacer la estimación de un parámetro también nos interesará calcular un intervalo de la distribución que nos permita conocer el grado de incertidumbre que existe en la estimación. Por eso a este intervalo se le denomina de confianza. La probable diferencia entre el valor medio de las medias y la media de la población vendrá indicado por la desviación típica de la distribución de la muestra §V ¨ © n ·¸ ¹ Por tanto, si representamos el valor de las medias de la muestra por xi, la media de la población es probable que se encuentre entre xn s n y xn s n Como ya hemos visto el 95% de todas las observaciones en una distribución normal se encuentran entre 1.96 desviaciones típicas por debajo de la media y 1.96 desviaciones típicas sobre la media. Es decir una observación puede ser esperada, con un 95% de certeza, entre estos límites (véase el gráfico de los intervalos para el 95% y el 99% de las observaciones en el apartado de la distribución normal). El intervalo entre x - 1. 96 V x y x + 1. 96V lo denominamos intervalo de confianza del 95% en p. Mientras que entre x -2.58 V x y x + 2.58 V x se encuentra el intervalo de confianza del 99% sobre p. Lo que estamos diciendo es que: P x r z §¨ V © n ·¸ ¹ y ya conocemos que los valores de z para un intervalo de confianza del 95% o del 99% son 1.96 y 2.58 respectivamente. Por tanto cuando se conoce la desviación típica (V) y se supone una distribución normal podremos calcular un intervalo de confianza en P a partir de: P x r z §¨ V © n ·¸ ¹ En caso de que no se conozca la desviación típica se utiliza la distribución t.x S í-) P x r t §¨ s © n ·¸ ¹ Frecuentemente se quiere estimar la media de una población a partir de las características de una muestra. Un intervalo de confianza sobre y es un rango de números dentro del cual se puede esperar encontrar la media p verdadera de la población con una probabilidad establecida. Es decir, un intervalo de confianza de por ejemplo el 99% es el rango de números dentro del cual se puede esperar encontrar la media verdadera en el 99% de los casos. Por tanto si queremos construir un intervalo de confianza del 95% sabemos que este se encuentra entre 1.96 y +1.96 desviaciones típicas de la media de la población. Es decir que podemos tener un 95% de confianza de que la media se encuentra en el intervalo x - 1. 96 V x < P < x + 1. 96 V x para una muestra aleatoria con una media X-. EJEMPLO Una biblioteca quiere calcular un intervalo de confianza en el que se encuentre el 95% de las adquisiciones que realiza dicha biblioteca. Este centro sabe que el precio medio de los materiales que adquiere es de 2.500 ptas, con una desviación típica de 300 ptas. Para construir un intervalo de confianza del 95% sabemos que se tiene que encontrar entre -1.96 y +1.96 desviaciones típicas de la media de la población. Como la media de la población es 2.500, y la desviación típica es de 300, el intervalo de confianza se encuentra situado entre -1.96V y +1.96V, es decir, -1.96(300)=588 y +1.96(300)= +588. Por tanto el intervalo de confianza para el 95% está comprendido entre 1912 y 3088 (el resultado de restarle y sumarle a la media 588). 0 lo que es lo mismo, el 95% de los precios de los libros que adquiere esa biblioteca se deberían encontrar entre 1.912 y 3.088 pesetas (1.912 < P < 3.088). Si la biblioteca adquiere documentos cuyos precios son de 2.900 y 2.000 ptas entran dentro de la zona de no significación y se consideran adquisiciones normales, ya que están dentro del intervalo del 95%. De igual forma se considerarán adquisiciones normales, y por tanto no significativas, todas las que oscilen entre 1.912 y 3.088 ptas. Pero si el precio del libro a comprar es de 3.500 ptas, es decir está fuera del intervalo, entonces es significativo, pues excede de 3.088 ptas (P+ 1. 96V). Ahora sabemos que este documento pertenece al 2.5% que tienen un precio dos (1.96) desviaciones típicas por encima de la media. De esta forma, el bibliotecario responsable, puede detectar automáticamente cualquier documento cuyo precio sea extremo (fuera del intervalo de confianza) y tomar decisiones al respecto. Igualmente un documento de precio 1.490 ptas cae también dentro de la zona de significación, está fuera del intervalo y por tanto el responsable de adquisiciones debería ver si es del 2.5% de los documentos que cae por debajo, o el documento tiene unas características que lo hacen especialmente barato. En este ejemplo podemos observar como a partir de la construcción de este intervalo de confianza podemos tener un mecanismo de control en adquisiciones. Este control nos sirve para localizar las compras que se salen del 95% de no significación y que el responsable de adquisiciones pueda decidir si los documentos significativos (3.500 y 1.490 ptas en el ejemplo), en función del precio, deben, o no, formar parte de la colección. Lo importante es tener claro que si contamos con un modelo como el expuesto el 95% de las adquisiciones se pueden considerar normales y estos documentos serán adquiridos sin problemas. El otro 5% que es significativo, ya que se sale del intervalo de confianza, sería el que debería ser supervisado por el responsable de adquisiciones para tomar la decisión que considere oportuna respecto a su adquisición. Resumiendo, lo que hemos hecho ha sido calcular un intervalo de confianza y después aplicar este intervalo al control y toma de decisiones en adquisiciones. 3.3.2. Tamaño de la muestra En este epígrafe veremos cómo se puede determinar el tamafío de la muestra antes de comenzar la recogida de datos. Lo que se pretende es calcular el tamaiío mínimo de la muestra a partir de un nivel de precisión previamente decidido, la amplitud deseada del intervalo de confianza y la desviación típica de la población. Por ejemplo queremos conocer la media con una aproximación de ±10 y con un intervalo de confianza del 95%. Las fórmulas vistas en los intervalos de confianza nos permiten deducir el tamaño que debe tener la muestra para obtener la precisión que deseamos. Como el intervalo de confianza que deseamos es del 95% sabemos que el valor es 1.96, y también queremos que la aproximación sea ±10, por tanto: 1.96 V x = 10 Vx= Como V x V n sustituimos por sus valores: 10 = 5.1 1.96 5.1 V n Por tanto para poder calcular el valor del tamaño de la muestra (n) tan sólo necesitamos conocer la desviación típica. Si suponemos que el valor de la desviación típica es 29 tendremos que: 5.1 29 n donde: n 29 5.1 5.69 y elevando al cuadrado para eliminar la raíz n=32.37. Lo que nos indica que con una muestra de tamaño 33 se puede conseguir la precisión que deseamos. 3.4. Problemas 1) 2) Una biblioteca conoce el precio medio de los documentos que adquiere y es de 3.000 ptas, y también sabe que la desviación típica es de 450. Calcular un intervalo de confianza del 95% para la media. Realizar el mismo cálculo para un intevalo de confianza del 99%. Una biblioteca quiere conocer el tamaiío que debe tener una muestra para calcular la velocidad de suministro del año que acaba de terminar (véase apartado 6.2.3.5). Por estudios de años anteriores sabe que su velocidad de suministro tiene una desviación típica de 3 días. Con un intervalo de confianza del 95% y para ±15 días dentro de la media de la muestra, la biblioteca quiere conocer qué tamafío debe tener la muestra que tiene que seleccionar del fichero donde se recogen los datos de fechas de pedido y recepción de documentos para que se cumplan estas condiciones. Moya Anegón, Félix, López Gijón, Javier, García Caro, Concepción. Técnicas cuantitativas aplicadas a la biblioteconomía y documentación--Madrid:Síntesis,1996.174p. 5- CORRELACIÓN Y REGRESIÓN 5.1. La correlación La correlación es una función estadística que sirve para describir con precisión el grado de relación que existe entre los valores de dos variables cuantitativas. El resultado de la aplicación de esta función se llama coeficiente de correlación. Hay dos formas de realizar la correlación lineal dependiendo del tipo de datos de que se trate. Una es el coeficiente de Pearson, representado por la letra r, y se usa cuando los datos de las dos variables son de intervalo y otra cuando los datos son ordinales, es decir, se presentan en forma de categorías o posiciones ordenadas, entonces se utiliza el coeficiente de Spearman, representado por la letra griega P o "ro". Aunque los dos son coeficientes de correlación lineales y la interpretación de los datos se hace de la misma manera, la forma de calcularlos es distinta. El coeficiente de correlación será una cifra situada entre -1 y +1. Ambos extremos son la expresión de una correlación perfecta entre dos variables de signo positivo o negativo. El coeficiente 0 significa que no existe relación entre las dos variables estudiadas. Como es lógico, es bastante probable que pocas veces la correlación existente entre dos variables sea totalmente perfecta, sino que lo más frecuente será que nos encontremos con que el coeficiente de correlación tenga valores intermedios entre -1 y +l, de donde podemos deducir que cuanto más cerca de la unidad esté el coeficiente, mayor será la relación existente entre las dos variables, y, al contrario, mientras más cercano a cero, menor será la relación existente entre ellas. Antes de seguir adelante hay que hacer una salvedad muy importante relacionada con la interpretación del resultado de la correlación. Tanto el coeficiente r de Pearson como el P Spearman sirven para medir relaciones de asociación de tipo lineal, y no se pueden usar para relaciones de otro tipo. Esto quiere decir que h que tener cuidado a la hora de interpretar un coeficiente de correlación igual a cero. Efectivamente, si r o P son igual a cero quiere decir que no hay relación alguna entre las variables o que el tipo de asociación que existe entre ellas no es lineal, sino que puede ser, por ejemplo, una relación de tipo curvilíneo. Para evitar este tipo de error, antes de calcular el coeficiente de correlación se deben representar los valores de cada par de variables en un diagrama de dispersión. A una variable la llamaremos x y a la otra y. La variable x normalmente se representa en el eje horizontal del diagrama y la variable y en el eje vertical, la escala de ambos ejes debe ser la misma. A continuación, iremos señalando el punto donde cada valor de x se cruza con el correspondiente de y. Una simple ojeada a la forma en que quedan distribuidos los puntos en el diagrama nos dará idea de su agrupamiento o dispersión en torno a una línea recta imaginaria, a una curva o los puntos están en forma de nube y no se puede imaginar una línea recta entre ellos. Es, pues, muy importante representar los datos gráficamente, porque dependiendo de la forma que adopten podremos tomar una serie de decisiones. A saber, si la representación de los datos nos da una forma de nube, es decir, los puntos están muy dispersos en el diagrama y no podemos imaginar una línea recta o curva que los una (ver gráfico adjunto "C"), significará que no existe relación entre los valores de las dos variables estudiadas y, por consiguiente, no debemos molestarnos en hallar el coeficiente de correlación pues el resultado será cero o casi cero. Moya Anegón, Félix, López Gijón, Javier, García Caro, Concepción. Técnicas cuantitativas aplicadas a la biblioteconomía y documentación--Madrid:Síntesis,1996.174p. 5- CORRELACIÓN Y REGRESIÓN 5.1. La correlación La correlación es una función estadística que sirve para describir con precisión el grado de relación que existe entre los valores de dos variables cuantitativas. El resultado de la aplicación de esta función se llama coeficiente de correlación. Hay dos formas de realizar la correlación lineal dependiendo del tipo de datos de que se trate. Una es el coeficiente de Pearson, representado por la letra r, y se usa cuando los datos de las dos variables son de intervalo y otra cuando los datos son ordinales, es decir, se presentan en forma de categorías o posiciones ordenadas, entonces se utiliza el coeficiente de Spearman, representado por la letra griega P o "ro". Aunque los dos son coeficientes de correlación lineales y la interpretación de los datos se hace de la misma manera, la forma de calcularlos es distinta. El coeficiente de correlación será una cifra situada entre -1 y +1. Ambos extremos son la expresión de una correlación perfecta entre dos variables de signo positivo o negativo. El coeficiente 0 significa que no existe relación entre las dos variables estudiadas. Como es lógico, es bastante probable que pocas veces la correlación existente entre dos variables sea totalmente perfecta, sino que lo más frecuente será que nos encontremos con que el coeficiente de correlación tenga valores intermedios entre -1 y +l, de donde podemos deducir que cuanto más cerca de la unidad esté el coeficiente, mayor será la relación existente entre las dos variables, y, al contrario, mientras más cercano a cero, menor será la relación existente entre ellas. Antes de seguir adelante hay que hacer una salvedad muy importante relacionada con la interpretación del resultado de la correlación. Tanto el coeficiente r de Pearson como el P Spearman sirven para medir relaciones de asociación de tipo lineal, y no se pueden usar para relaciones de otro tipo. Esto quiere decir que h que tener cuidado a la hora de interpretar un coeficiente de correlación igual a cero. Efectivamente, si r o P son igual a cero quiere decir que no hay relación alguna entre las variables o que el tipo de asociación que existe entre ellas no es lineal, sino que puede ser, por ejemplo, una relación de tipo curvilíneo. Para evitar este tipo de error, antes de calcular el coeficiente de correlación se deben representar los valores de cada par de variables en un diagrama de dispersión. A una variable la llamaremos x y a la otra y. La variable x normalmente se representa en el eje horizontal del diagrama y la variable y en el eje vertical, la escala de ambos ejes debe ser la misma. A continuación, iremos señalando el punto donde cada valor de x se cruza con el correspondiente de y. Una simple ojeada a la forma en que quedan distribuidos los puntos en el diagrama nos dará idea de su agrupamiento o dispersión en torno a una línea recta imaginaria, a una curva o los puntos están en forma de nube y no se puede imaginar una línea recta entre ellos. Es, pues, muy importante representar los datos gráficamente, porque dependiendo de la forma que adopten podremos tomar una serie de decisiones. A saber, si la representación de los datos nos da una forma de nube, es decir, los puntos están muy dispersos en el diagrama y no podemos imaginar una línea recta o curva que los una (ver gráfico adjunto "C"), significará que no existe relación entre los valores de las dos variables estudiadas y, por consiguiente, no debemos molestarnos en hallar el coeficiente de correlación pues el resultado será cero o casi cero. Por otro lado, si los datos representados en el diagrama vemos que se agrupan en torno a una curva imaginaria (ver gráfico adjunto "D"), querrá ello decir que existe relación entre las dos variables, pero si la queremos cuantificar no podremos utilizar los coeficientes de correlación r ni p, pues ya hemos dicho antes que sólo miden relaciones lineales, y tendríamos que utilizar funciones estadísticas distintas las correlaciones curvilíneas que no entran en el propósito de este libro. Sólo si al ver representados los datos en el diagrama vemos que éstos se encuentran agrupados, con mayor o menor densidad, en torno a una línea recta imaginaria (ver gráfico adjunto "A" o "B") entonces podremos decir que los valores de ambas variables tienen algún tipo de relación y para cuantificarla usaremos el coeficiente de correlación r o p según de qué tipo sean los datos. A continuación, estudiaremos cómo se calculan los dos coeficientes, empezando por el coeficiente de correlación r de Pearson, que es el más utilizado aunque sea más difícil de calcular que el de Spearman. 5.1.1. Coeficiente de correlación r de Pearson El coeficiente de correlación de Pearson, también conocido con el nombre de momento-producto de Pearson o simplemente r de Pearson, es el más difundido para calcular el grado de asociación lineal entre los valores de dos variables de intervalo distribuidas normalmente. Fórmula: A la hora de interpretar el resultado hay que tener en cuenta que aunque éste sea muy alto, es decir, cercano a la unidad, esto no significa que una de las variables sea causa o efecto de la otra, sino que existe una fuerte relación entre ellas. Algunos autores consideran que, independientemente del tamaño de la muestra, r debe ser como mínimo igual a ± 0.4 para poder decir que existe una correlación significativa, aunque si el tamaño de la muestra es muy pequefío, entonces r debe estar entre ± 0.7 y 0.8 como mínimo para decir que existe un buen coeficiente de correlación entre las dos variables objeto de estudio. Hay que tener en cuenta, como siempre que se trabaja con datos provenientes de muestras y no con datos de la población, que el coeficiente de correlación resultante entre dos variables puede deberse al azar, sobre todo cuando se trabaja con muestras pequeñas, ya que cuando se trabaja con muestras grandes es menos probable que el coeficiente de correlación se deba a factores aleatorios. De todas formas, se puede determinar el grado de azar que ha podido influir en el coeficiente de correlación aplicando la prueba estadística t, que se calcula de la siguiente manera: Fórmula: EJEMPLO En un trabajo de investigación se desea saber cual es el mejor horario para una biblioteca pública. Se parte de la hipótesis de que tanto el número de horas como cuáles sean esas horas, van a influir en el número de usuarios de la biblioteca, es decir, que existe correlación entre el número de horas y el número de usuarios. Para cuantificar el grado de relación entre ambas variables, se ha diseñado un experimento con una biblioteca sometida a distintos horarios consignando el número de usuarios en cada horario: 2 horas de 5 a 7 de la tarde. 4 horas de 4 a 8 de la tarde. 6 horas de 2 a 8 de la tarde. 8 horas de 12 de la mañana a 8 de la tarde. 10 horas de 10 de la mañana a 8 de la tarde. 12 horas de 8 de la mañana a 8 de la tarde. X 2 4 6 8 10 12 42 y 20 50 60 100 150 160 540 x, 4 16 36 64 100 144 364 y, 400 2500 3600 10000 22500 25600 64600 XY 40 200 360 800 1500 1920 4820 La tabla adjunta contiene el número de horas que permanece abierta la biblioteca (variable x) y el número de usuarios que han entrado durante el tiempo que permanecía abierta (variable y). En la tercera y cuarta columnas están los valores de x y de y elevados al cuadrado. Por último, en la quinta columna está el resultado de multiplicar cada valor de x por el correspondiente de y: El coerficiente de correlación resultante es muy alto, 098 de signo positivo, luego es una correlación lineal directa, lo que quiere decir que cuando crece el valor de una variable crece también el de la otra. Para esta seguros de que la correlación no se debe al azar, sometemos el resultado a la prueba t: El resultado de t en el ejemplo es 9.8. En la tabla t [ver apéndice] para 4 grados de libertad (6-2) y nivel de significación de 0.05, el valor de t es 2.776, inferior al resultado del ejemplo, y para el nivel de significación 0.01 el valor de la tabla es 4.604, también inferior a 9.8. Luego, sin ningún género de dudas, se puede afinnar que existe una fuerte correlación entre el número de horas que está abierta la biblioteca y el número de usuarios. 5.1.2. Coeficiente de correlación U de Spearman El coeficiente U de Spearman se utiliza, como se dijo al principio, cuando los datos están en forma de categorías o de posiciones ordenadas. También se puede usar cuando el número de observaciones de las variables es muy alto y se hace muy dificultoso el cálculo del coeficiente de correlación mediante el método de Pearson, convirtiéndolos en datos ordenados por rangos. La p de Spearman se define como la correlación momento-producto aplicada a rangos de x e y, y no a los valores brutos de los mismos. El rango, tanto de los valores de x como de y, es el número de orden que le corresponde a cada valor de la variable, ordenádolos de menor a mayor, es decir, asignándole el rango 1 al valor más bajo de todos. Si varias observaciones tienen el mismo valor, les corresponderá el mismo rano y éste se calcula sumando el número de orden que les correspondería sin tener n cuenta que tienen el mismo valor y dividiendo por el número de repeticiones. or ejemplo, si los valores de una variable cualquiera son los de la primera fila de la iguiente tabla, al primer 4 le correspondería el rango 2 y al segundo el 3, se suman os y se divide el resultado entre 2, que es el número de veces que está repetido 1 valor 4, dando un rango de 2.5 para cada uno de ellos: valores rango 0 1 4 2.5 4 2.5 5 4 7 5 8 La fórmula para calcular el coeficiente de correlación p de Spearman es la siguiente: EJEMPLO La sección infantil de una biblioteca pública municipal ha venido observando que, por un lado, se está produciendo un aumento considerable de los préstamos a domicilio y, por otro, una disminución de los libros infantiles en buen estado de conservación. Para poder averiguar si ambos fenómenos tienen relación, y así cuantificar su grado, se ha tomado una muestra de los libros infantiles prestados durante x 32 40 43 51 51 51 60 60 62 74 82 85 y 200 175 175 163 161 156 142 139 139 128 121 118 Rango de x 1 2 3 5 5 5 7.5 7.5 9 10 11 12 Rango de y 12 10.5 10.5 9 8 7 6 4.5 4.5 3 2 1 D -11 -8.5 -7.5 -4 -3 -2 1.5 3 4.5 7 9 11 D2 121 72.25 56.25 16 9 4 2.25 9 20.25 49 81 121 los doce meses de un aiío (variable x) y, por otro se ha tomado otra muestra del número de libros infantiles en buen estado durante cada uno de los meses del mismo año (variable y). Los datos de ambas variables están en las dos primeras columnas de la tabla adjunta. En la tercera y cuarta columna están los rangos de x y de y. En la quinta columna (D) está la diferencia entre el rango de x y de y. Por último, en la sexta columna (D2) están las diferencias elevadas al cuadrado: La U resultante es -0.96. El hecho de que sea negativa significa que la correlación es inversa, es decir, cuando aumenta el número de libros infantiles prestados disminuye el número de libros infantiles en buen estado y, además, al ser una correlación tan alta -0.96, podríamos decir que está cercana a la correlación inversa perfecta, que sería -1. Luego podríamos decir que existe una fuerte asociación entre la circulación de los libros infantiles y el deterioro de los mismos. Como los datos proceden de muestras, hay que comprobar si este resultado no es fruto del azar. Para ello usamos la prueba t: Antes de continuar, es necesario aclarar que para consultar la tabla t, no hay que tener en cuenta el signo, positivo o negativo, del coeficiente, aunque no hay que olvidarlo a la hora de la interpretación. El valor de t en nuestro ejemplo es -10.73. Para 10 grados de libertad y nivel de significación 0.05, el valor de la tabla t es 2.228, que al ser menor que el valor t del ejemplo, significa que supera la prueba, es decir, que la correlación no es fruto del azar. Si, para estar más seguros, miramos el valor t de la tabla para un nivel de significación 0.01, vemos que es 3.169, también inferior al valor t del ejemplo, luego se puede afimar que existe una fuerte relación de tipo inverso entre las dos variables y a medida que aumenta el número de préstamos de documentos infantiles, disminuye el número de documentos en buen estado de conservación. 5.2. La regresión Tanto en el caso de la regresión, como en el de la correlación, ponemos en relación dos variables (xy) con el objeto de analizar si son dependientes entre sí o simplemente mantienen un cierto tipo de relación. Asimismo, bajo ciertas circunstancias, estas funciones son una magnífica herramienta para la predicción. La llamada curva de regresión de dos variables es el resultado de la aplicación de un modelo matemático sobre sus valores, de tal suerte que la curva expresa grá ficamente el tipo de relación que existe entre ambas variables, y en algunas ocasiones nos permite predecir la evolución futura de los valores de una de ellas a partir de los de la otra. Aunque existen diferentes tipos de regresiones lineal, curvilínea y múltiple- aquí nos ocuparemos casi exclusivamente de la más simple de todas, la denominada regresión lineal. Este tipo es el que corresponde a aquellos pares de variables cuyos valores guardan entre si una relación lineal, es decir, el incremento o decremento de una de las variables se corresponde con incrementos o decrementos proporcionales en la otra y, por tanto, la representación gráfica de su regresión es siempre una recta. Existiendo distintos tipos de regresiones es preciso objetivar mediante procedimientos matemáticos la determinación del tipo de regresión que mejor se ajusta al conjunto de valores de las variables objeto de análisis. El mayor o menor grado de ajuste entre la curva de regresión y la expresión gráfica de los valores de las variables a los que representa dicha curva, viene dado por el grado de proximidad de los puntos de las variables a la curva. Cuanto más próximos, más ajustada, y cuanto más distantes, menos ajustada. Por tanto, aquella curva de regresión que esté más ajustada será la que mejor represente la nube de puntos que forman los valores de las variables. Este ajuste se expresa matemáticamente mediante el coeficiente de correlación entre las variables. Los valores de dicho coeficiente oscilan entre +l y -1 siendo estos valores extremos los que representan el mayor grado de ajuste en regresiones con pendientes positivas o negativas. En consecuencia, los pares de variables cuyo coeficiente de correlación sea más próximo a +l ó -1 estarán más ajustadas a su recta de regresión. Así, por ejemplo, en la gráfica adjunta el coeficiente de correlación de 0.97990 refleja matemáticamente lo que gráficamente vemos al comprobar que todos los puntos de la gráfica están muy próximos a la recta de regresión: Cualquier recta sigue la expresión algebraica y = a + bx, lo que sucede tambien en el caso de la regresión lineal. Las variables x e y representan los puntos de la recta, mientras que a y b son constantes que representan respectivamente: a = valor de y cuando x = 0. b = valor de la pendiente de la recta. Trasladando esto al problema de la regresión lineal vemos que mientras la determinación del valor de a es trivial, el valor de b resulta algo menos evidente en su cálculo. La pendiente de una recta se calcula dividiendo el incremento o decremento de y por el de x para dos puntos dados de la recta. Lo que se expresa: donde: ' es el diferencial de la variable a la que acompaña. Dicho cálculo tendrá siempre el mismo resultado en dos puntos cualesquiera por tratarse de una recta. Si pretendemos calcular la recta de regresión podemos utilizar el método de los mínimos cuadrados. Este método se basa en el principio de que la regresión lineal de y sobre x es una recta que posee la propiedad de que la suma de las distancias verticales positivas y negativas sea cero y la desviación estándar de los puntos respecto de aquella sea lo más pequeña posible. Siguiendo con este argumento, si la ecuación de una recta es y = a + bx, la determinación de las coordenadas de cualquiera de los puntos que la integran -Valores de x e y- nos obligará a calcular con anterioridad los valores de las constantes a y b, que, para el caso de una regresión lineal por el método de los mínimos cuadrados, serán: Por último, si la relación entre dos variables es lineal y su coeficiente de correlación fuera uno o próximo a uno, podríamos calcular los valores futuros de una de las variables a partir de los valores de la otra. Este tipo de predicción se realiza con frecuencia cuando una de las variables es temporal, de tal forma que conocemos sus valores futuros a prior¡ y lo que buscamos es determinar los valores que irá tomando la otra variable a medida que pasa el tiempo. Este caso da lugar a infinidad de posibilidades en las Ciencias sociales y particularmente en la Documentación. En el ejemplo siguiente veremos cómo la recta de ' regresión nos ha permitido proyectar hacia el futuro los valores de crecimiento del catálogo, y por tanto de la colección, así como los del incremento de materias utilizadas para representar los contenidos de dicha colección. Como se puede apreciar en la gráfica siguiente, con la simple prolongación de la recta de regresión podemos predecir el ritmo de crecimiento de una colección asumiendo que las variables que afectan a dicha evolución se comportarán de igual forma en el futuro. En el mismo sentido la evolución futura de las materias también puede ser evaluada. Este ejemplo nos permite apreciar, por otra parte, la necesidad de utilizar distintos tipos de regresiones según la evolución de los valores de las variables que tratamos de representar. Mientras que en el caso de la evolución del catálogo la regresión lineal resulta muy ajustada y tiene, por tanto, un coeficiente de correlación muy próximo a 1, la regresión que resulta más ajustada por lo que afecta a la evolución de las materias es una logarítmica. EJEMPLO Como parte del análisis que realiza de su colección, una biblioteca quiere'calcular el número de títulos que tendrá su catálogo, así como el número de entradas que tendrá su fichero de materias un año después. Para realizar dicho cálculo toma como referencia los datos de registros y materias acumuladas en el catálogo durante más de dos años. La tabla adjunta contiene en las columnas de y(r) el número de registros acumulados mes a mes, mientras que en las columnas de y(m) aparecen las materias acumuladas durante el mismo periodo: Y(M) Y(M) Y(M) 39.116 207 7.513 10.689 22.686 39.543 1.510 7.830 10.747 4.668 23.853 41.023 3.003 8.049 10.986 8.156 26.397 42.809 4.295 8.613 11.312 11.035 28.775- 45.197 5.315 8.973 11.729 13.781 31.375 46.290 5.977 9.459 11.867 14.943 32.874 48.384 6.267 9.702 12.155 16.191 35.369 50.876 6.467 10.086 12.501 17.693 37.156 53.214 6.907 10.401 12.889 Y(r) Y(r) y (r) Y(M) Y(M) Y(M) 1.4 20.877 39.116 207 7.513 10.689 1.631 22.686 39.543 1.510 7.830 10.747 4.668 23.853 41.023 3.003 8.049 10.986 8.156 26.397 42.809 4.295 8.613 11.312 11.035 28.775- 45.197 5.315 8.973 11.729 13.781 31.375 46.290 5.977 9.459 11.867 14.943 32.874 48.384 6.267 9.702 12.155 16.191 35.369 50.876 6.467 10.086 12.501 17.693 37.156 53.214 6.907 10.401 12.889 Y(r) Y(r) y (r) 1.4 20.877 1.631 Si asumimos que la recta de regresión siguiente representa la forma en que evoluciona la relación entre la variable meses (x) y la variable registros acumulados (y), podremos contestar a la pregunta: ¿cuántos registros tendrá el catálogo en abril de 1996? Considerando que abril del 96 representa el valor 40 de x, la pregunta del ejemplo se formula: ¿cuál será el valor de y cuando x sea igual a 40? Para resolver esta cuestión debemos calcular previamente los valores de a y b a licando las fórmulas res ectivas: El valor de y representa el número de registros que tendrá el catálogo en el mes de abril de 1996. Para el caso de las materias la regresión más ajustada no es lineal, sino logarítmica como se puede ver en el gráfico siguiente. De cualquier forma el cálculo sigue los mismos pasos salvo por que se utiliza la ecuación de una curva en lugar de la de una recta. 5.3. Problemas 1) Una biblioteca pretende comprobar si existe alguna relación entre el tiempo que los documentos llevan en la colección y el uso que los usuarios hacen de ellos. Para lo cual ha tomado una muestra de 10 documentos con su antiguedad en la colección y la frecuencia de uso asociada: Antigüedad Frecuencia 5 11 3 22 2 1 30 1 1 40 1 35 4 17 6 9 20 7 6 _8 3 Hallar el coeficiente de correlación entre estas dos variables y calcular cuantos años de antiguedad en la colección debe tener un documento para que no se preste una sola vez. La relación existente entre el préstamo de libros de ficción y la edad de los usuarios en una biblioteca es la siguiente: Edad Doc. Ficc. <10 60 10-19 51 20-29 48 30-39 48 40-49 29 >50 25 Hallar el coeficiente de correlación. El número de usuarios y el número de préstamos, de una biblioteca durante los últimos 5 años son los siguientes: Usuarios Préstamos 296 155 459 275 602 322 798 582 915 761 ¿Qué número de préstamos se deben esperar cuando el número de usuarios llegue a 1.500? Por otro lado, si los datos representados en el diagrama vemos que se agrupan en torno a una curva imaginaria (ver gráfico adjunto "D"), querrá ello decir que existe relación entre las dos variables, pero si la queremos cuantificar no podremos utilizar los coeficientes de correlación r ni p, pues ya hemos dicho antes que sólo miden relaciones lineales, y tendríamos que utilizar funciones estadísticas distintas las correlaciones curvilíneas que no entran en el propósito de este libro. Sólo si al ver representados los datos en el diagrama vemos que éstos se encuentran agrupados, con mayor o menor densidad, en torno a una línea recta imaginaria (ver gráfico adjunto "A" o "B") entonces podremos decir que los valores de ambas variables tienen algún tipo de relación y para cuantificarla usaremos el coeficiente de correlación r o p según de qué tipo sean los datos. A continuación, estudiaremos cómo se calculan los dos coeficientes, empezando por el coeficiente de correlación r de Pearson, que es el más utilizado aunque sea más difícil de calcular que el de Spearman. 5.1.1. Coeficiente de correlación r de Pearson El coeficiente de correlación de Pearson, también conocido con el nombre de momento-producto de Pearson o simplemente r de Pearson, es el más difundido para calcular el grado de asociación lineal entre los valores de dos variables de intervalo distribuidas normalmente. Fórmula: A la hora de interpretar el resultado hay que tener en cuenta que aunque éste sea muy alto, es decir, cercano a la unidad, esto no significa que una de las variables sea causa o efecto de la otra, sino que existe una fuerte relación entre ellas. Algunos autores consideran que, independientemente del tamaño de la muestra, r debe ser como mínimo igual a ± 0.4 para poder decir que existe una correlación significativa, aunque si el tamaño de la muestra es muy pequefío, entonces r debe estar entre ± 0.7 y 0.8 como mínimo para decir que existe un buen coeficiente de correlación entre las dos variables objeto de estudio. Hay que tener en cuenta, como siempre que se trabaja con datos provenientes de muestras y no con datos de la población, que el coeficiente de correlación resultante entre dos variables puede deberse al azar, sobre todo cuando se trabaja con muestras pequeñas, ya que cuando se trabaja con muestras grandes es menos probable que el coeficiente de correlación se deba a factores aleatorios. De todas formas, se puede determinar el grado de azar que ha podido influir en el coeficiente de correlación aplicando la prueba estadística t, que se calcula de la siguiente manera: Fórmula: EJEMPLO En un trabajo de investigación se desea saber cual es el mejor horario para una biblioteca pública. Se parte de la hipótesis de que tanto el número de horas como cuáles sean esas horas, van a influir en el número de usuarios de la biblioteca, es decir, que existe correlación entre el número de horas y el número de usuarios. Para cuantificar el grado de relación entre ambas variables, se ha diseñado un experimento con una biblioteca sometida a distintos horarios consignando el número de usuarios en cada horario: 2 horas de 5 a 7 de la tarde. 4 horas de 4 a 8 de la tarde. 6 horas de 2 a 8 de la tarde. 8 horas de 12 de la mañana a 8 de la tarde. 10 horas de 10 de la mañana a 8 de la tarde. 12 horas de 8 de la mañana a 8 de la tarde. X 2 4 6 8 10 12 42 y 20 50 60 100 150 160 540 x, 4 16 36 64 100 144 364 y, 400 2500 3600 10000 22500 25600 64600 XY 40 200 360 800 1500 1920 4820 La tabla adjunta contiene el número de horas que permanece abierta la biblioteca (variable x) y el número de usuarios que han entrado durante el tiempo que permanecía abierta (variable y). En la tercera y cuarta columnas están los valores de x y de y elevados al cuadrado. Por último, en la quinta columna está el resultado de multiplicar cada valor de x por el correspondiente de y: El coerficiente de correlación resultante es muy alto, 098 de signo positivo, luego es una correlación lineal directa, lo que quiere decir que cuando crece el valor de una variable crece también el de la otra. Para esta seguros de que la correlación no se debe al azar, sometemos el resultado a la prueba t: El resultado de t en el ejemplo es 9.8. En la tabla t [ver apéndice] para 4 grados de libertad (6-2) y nivel de significación de 0.05, el valor de t es 2.776, inferior al resultado del ejemplo, y para el nivel de significación 0.01 el valor de la tabla es 4.604, también inferior a 9.8. Luego, sin ningún género de dudas, se puede afinnar que existe una fuerte correlación entre el número de horas que está abierta la biblioteca y el número de usuarios. 5.1.2. Coeficiente de correlación U de Spearman El coeficiente U de Spearman se utiliza, como se dijo al principio, cuando los datos están en forma de categorías o de posiciones ordenadas. También se puede usar cuando el número de observaciones de las variables es muy alto y se hace muy dificultoso el cálculo del coeficiente de correlación mediante el método de Pearson, convirtiéndolos en datos ordenados por rangos. La p de Spearman se define como la correlación momento-producto aplicada a rangos de x e y, y no a los valores brutos de los mismos. El rango, tanto de los valores de x como de y, es el número de orden que le corresponde a cada valor de la variable, ordenádolos de menor a mayor, es decir, asignándole el rango 1 al valor más bajo de todos. Si varias observaciones tienen el mismo valor, les corresponderá el mismo rano y éste se calcula sumando el número de orden que les correspondería sin tener n cuenta que tienen el mismo valor y dividiendo por el número de repeticiones. or ejemplo, si los valores de una variable cualquiera son los de la primera fila de la iguiente tabla, al primer 4 le correspondería el rango 2 y al segundo el 3, se suman os y se divide el resultado entre 2, que es el número de veces que está repetido 1 valor 4, dando un rango de 2.5 para cada uno de ellos: valores rango 0 1 4 2.5 4 2.5 5 4 7 5 8 La fórmula para calcular el coeficiente de correlación p de Spearman es la siguiente: EJEMPLO La sección infantil de una biblioteca pública municipal ha venido observando que, por un lado, se está produciendo un aumento considerable de los préstamos a domicilio y, por otro, una disminución de los libros infantiles en buen estado de conservación. Para poder averiguar si ambos fenómenos tienen relación, y así cuantificar su grado, se ha tomado una muestra de los libros infantiles prestados durante x 32 40 43 51 51 51 60 60 62 74 82 85 y 200 175 175 163 161 156 142 139 139 128 121 118 Rango de x 1 2 3 5 5 5 7.5 7.5 9 10 11 12 Rango de y 12 10.5 10.5 9 8 7 6 4.5 4.5 3 2 1 D -11 -8.5 -7.5 -4 -3 -2 1.5 3 4.5 7 9 11 D2 121 72.25 56.25 16 9 4 2.25 9 20.25 49 81 121 los doce meses de un aiío (variable x) y, por otro se ha tomado otra muestra del número de libros infantiles en buen estado durante cada uno de los meses del mismo año (variable y). Los datos de ambas variables están en las dos primeras columnas de la tabla adjunta. En la tercera y cuarta columna están los rangos de x y de y. En la quinta columna (D) está la diferencia entre el rango de x y de y. Por último, en la sexta columna (D2) están las diferencias elevadas al cuadrado: La U resultante es -0.96. El hecho de que sea negativa significa que la correlación es inversa, es decir, cuando aumenta el número de libros infantiles prestados disminuye el número de libros infantiles en buen estado y, además, al ser una correlación tan alta -0.96, podríamos decir que está cercana a la correlación inversa perfecta, que sería -1. Luego podríamos decir que existe una fuerte asociación entre la circulación de los libros infantiles y el deterioro de los mismos. Como los datos proceden de muestras, hay que comprobar si este resultado no es fruto del azar. Para ello usamos la prueba t: Antes de continuar, es necesario aclarar que para consultar la tabla t, no hay que tener en cuenta el signo, positivo o negativo, del coeficiente, aunque no hay que olvidarlo a la hora de la interpretación. El valor de t en nuestro ejemplo es -10.73. Para 10 grados de libertad y nivel de significación 0.05, el valor de la tabla t es 2.228, que al ser menor que el valor t del ejemplo, significa que supera la prueba, es decir, que la correlación no es fruto del azar. Si, para estar más seguros, miramos el valor t de la tabla para un nivel de significación 0.01, vemos que es 3.169, también inferior al valor t del ejemplo, luego se puede afimar que existe una fuerte relación de tipo inverso entre las dos variables y a medida que aumenta el número de préstamos de documentos infantiles, disminuye el número de documentos en buen estado de conservación. 5.2. La regresión Tanto en el caso de la regresión, como en el de la correlación, ponemos en relación dos variables (xy) con el objeto de analizar si son dependientes entre sí o simplemente mantienen un cierto tipo de relación. Asimismo, bajo ciertas circunstancias, estas funciones son una magnífica herramienta para la predicción. La llamada curva de regresión de dos variables es el resultado de la aplicación de un modelo matemático sobre sus valores, de tal suerte que la curva expresa grá ficamente el tipo de relación que existe entre ambas variables, y en algunas ocasiones nos permite predecir la evolución futura de los valores de una de ellas a partir de los de la otra. Aunque existen diferentes tipos de regresiones lineal, curvilínea y múltiple- aquí nos ocuparemos casi exclusivamente de la más simple de todas, la denominada regresión lineal. Este tipo es el que corresponde a aquellos pares de variables cuyos valores guardan entre si una relación lineal, es decir, el incremento o decremento de una de las variables se corresponde con incrementos o decrementos proporcionales en la otra y, por tanto, la representación gráfica de su regresión es siempre una recta. Existiendo distintos tipos de regresiones es preciso objetivar mediante procedimientos matemáticos la determinación del tipo de regresión que mejor se ajusta al conjunto de valores de las variables objeto de análisis. El mayor o menor grado de ajuste entre la curva de regresión y la expresión gráfica de los valores de las variables a los que representa dicha curva, viene dado por el grado de proximidad de los puntos de las variables a la curva. Cuanto más próximos, más ajustada, y cuanto más distantes, menos ajustada. Por tanto, aquella curva de regresión que esté más ajustada será la que mejor represente la nube de puntos que forman los valores de las variables. Este ajuste se expresa matemáticamente mediante el coeficiente de correlación entre las variables. Los valores de dicho coeficiente oscilan entre +l y -1 siendo estos valores extremos los que representan el mayor grado de ajuste en regresiones con pendientes positivas o negativas. En consecuencia, los pares de variables cuyo coeficiente de correlación sea más próximo a +l ó -1 estarán más ajustadas a su recta de regresión. Así, por ejemplo, en la gráfica adjunta el coeficiente de correlación de 0.97990 refleja matemáticamente lo que gráficamente vemos al comprobar que todos los puntos de la gráfica están muy próximos a la recta de regresión: Cualquier recta sigue la expresión algebraica y = a + bx, lo que sucede tambien en el caso de la regresión lineal. Las variables x e y representan los puntos de la recta, mientras que a y b son constantes que representan respectivamente: a = valor de y cuando x = 0. b = valor de la pendiente de la recta. Trasladando esto al problema de la regresión lineal vemos que mientras la determinación del valor de a es trivial, el valor de b resulta algo menos evidente en su cálculo. La pendiente de una recta se calcula dividiendo el incremento o decremento de y por el de x para dos puntos dados de la recta. Lo que se expresa: donde: ' es el diferencial de la variable a la que acompaña. Dicho cálculo tendrá siempre el mismo resultado en dos puntos cualesquiera por tratarse de una recta. Si pretendemos calcular la recta de regresión podemos utilizar el método de los mínimos cuadrados. Este método se basa en el principio de que la regresión lineal de y sobre x es una recta que posee la propiedad de que la suma de las distancias verticales positivas y negativas sea cero y la desviación estándar de los puntos respecto de aquella sea lo más pequeña posible. Siguiendo con este argumento, si la ecuación de una recta es y = a + bx, la determinación de las coordenadas de cualquiera de los puntos que la integran -Valores de x e y- nos obligará a calcular con anterioridad los valores de las constantes a y b, que, para el caso de una regresión lineal por el método de los mínimos cuadrados, serán: Por último, si la relación entre dos variables es lineal y su coeficiente de correlación fuera uno o próximo a uno, podríamos calcular los valores futuros de una de las variables a partir de los valores de la otra. Este tipo de predicción se realiza con frecuencia cuando una de las variables es temporal, de tal forma que conocemos sus valores futuros a prior¡ y lo que buscamos es determinar los valores que irá tomando la otra variable a medida que pasa el tiempo. Este caso da lugar a infinidad de posibilidades en las Ciencias sociales y particularmente en la Documentación. En el ejemplo siguiente veremos cómo la recta de ' regresión nos ha permitido proyectar hacia el futuro los valores de crecimiento del catálogo, y por tanto de la colección, así como los del incremento de materias utilizadas para representar los contenidos de dicha colección. Como se puede apreciar en la gráfica siguiente, con la simple prolongación de la recta de regresión podemos predecir el ritmo de crecimiento de una colección asumiendo que las variables que afectan a dicha evolución se comportarán de igual forma en el futuro. En el mismo sentido la evolución futura de las materias también puede ser evaluada. Este ejemplo nos permite apreciar, por otra parte, la necesidad de utilizar distintos tipos de regresiones según la evolución de los valores de las variables que tratamos de representar. Mientras que en el caso de la evolución del catálogo la regresión lineal resulta muy ajustada y tiene, por tanto, un coeficiente de correlación muy próximo a 1, la regresión que resulta más ajustada por lo que afecta a la evolución de las materias es una logarítmica. EJEMPLO Como parte del análisis que realiza de su colección, una biblioteca quiere'calcular el número de títulos que tendrá su catálogo, así como el número de entradas que tendrá su fichero de materias un año después. Para realizar dicho cálculo toma como referencia los datos de registros y materias acumuladas en el catálogo durante más de dos años. La tabla adjunta contiene en las columnas de y(r) el número de registros acumulados mes a mes, mientras que en las columnas de y(m) aparecen las materias acumuladas durante el mismo periodo: Y(M) Y(M) Y(M) 39.116 207 7.513 10.689 22.686 39.543 1.510 7.830 10.747 4.668 23.853 41.023 3.003 8.049 10.986 8.156 26.397 42.809 4.295 8.613 11.312 11.035 28.775- 45.197 5.315 8.973 11.729 13.781 31.375 46.290 5.977 9.459 11.867 14.943 32.874 48.384 6.267 9.702 12.155 16.191 35.369 50.876 6.467 10.086 12.501 17.693 37.156 53.214 6.907 10.401 12.889 Y(r) Y(r) y (r) Y(M) Y(M) Y(M) 1.4 20.877 39.116 207 7.513 10.689 1.631 22.686 39.543 1.510 7.830 10.747 4.668 23.853 41.023 3.003 8.049 10.986 8.156 26.397 42.809 4.295 8.613 11.312 11.035 28.775- 45.197 5.315 8.973 11.729 13.781 31.375 46.290 5.977 9.459 11.867 14.943 32.874 48.384 6.267 9.702 12.155 16.191 35.369 50.876 6.467 10.086 12.501 17.693 37.156 53.214 6.907 10.401 12.889 Y(r) Y(r) y (r) 1.4 20.877 1.631 Si asumimos que la recta de regresión siguiente representa la forma en que evoluciona la relación entre la variable meses (x) y la variable registros acumulados (y), podremos contestar a la pregunta: ¿cuántos registros tendrá el catálogo en abril de 1996? Considerando que abril del 96 representa el valor 40 de x, la pregunta del ejemplo se formula: ¿cuál será el valor de y cuando x sea igual a 40? Para resolver esta cuestión debemos calcular previamente los valores de a y b a licando las fórmulas res ectivas: El valor de y representa el número de registros que tendrá el catálogo en el mes de abril de 1996. Para el caso de las materias la regresión más ajustada no es lineal, sino logarítmica como se puede ver en el gráfico siguiente. De cualquier forma el cálculo sigue los mismos pasos salvo por que se utiliza la ecuación de una curva en lugar de la de una recta. 5.3. Problemas 1) Una biblioteca pretende comprobar si existe alguna relación entre el tiempo que los documentos llevan en la colección y el uso que los usuarios hacen de ellos. Para lo cual ha tomado una muestra de 10 documentos con su antiguedad en la colección y la frecuencia de uso asociada: Antigüedad Frecuencia 5 11 3 22 2 1 30 1 1 40 1 35 4 17 6 9 20 7 6 _8 3 Hallar el coeficiente de correlación entre estas dos variables y calcular cuantos años de antiguedad en la colección debe tener un documento para que no se preste una sola vez. La relación existente entre el préstamo de libros de ficción y la edad de los usuarios en una biblioteca es la siguiente: Edad Doc. Ficc. <10 60 10-19 51 20-29 48 30-39 48 40-49 29 >50 25 Hallar el coeficiente de correlación. El número de usuarios y el número de préstamos, de una biblioteca durante los últimos 5 años son los siguientes: Usuarios Préstamos 296 155 459 275 602 322 798 582 915 761 ¿Qué número de préstamos se deben esperar cuando el número de usuarios llegue a 1.500? Moya Anegón, Félix, López Gijón, Javier, García Caro, Concepción. Técnicas cuantitativas aplicadas a la biblioteconomía y documentación--Madrid:Síntesis,1996.174p. 6- INDICADORES PARA LA EVALUACIÓN Y TOMA DE DECISIONES EN BIBLIOTECAS 6.1. Introducción Cuando en el curso 1993-94 la entonces Escuela Universitaria de Biblioteconomía y Documentación de la Universidad de Granada organizó el master universitario en Tecnología de la información y gestión documental, Félix de Moya, director del master, encargó a Josefina Vilchez Pardo y Javier López Gijón la preparación de un módulo sobre Herramientas informáticas para la evaluación de bibliotecas, que se desarrollaría como proyecto con los alurrmos de dicho curso. Con tal encargo se pretendia cubrir una laguna de los planes de estudios entonces existentes, pues en dichos planes no se incluía nada que estuviera relacionado con la evaluación, toma de decisiones y métodos cuantitativos de análisis, y mucho menos con el uso del ordenador como una potente herran-úenta de trabajo en este campo. De la experiencia adquirida en la puesta en práctica de este proyecto surgió una comunicación presentada a las IVJomadas Españolas de documentación automatizada (López Gijón y Vílchez Pardo, 1994). Con posterioridad estos materiales fueron ampliados y reelaborados para presentar una ponencia en las VII Jomadas de bibliotecas públicas organizadas por la Asociación de Bibliotecarios y Documentalistas de Guipúzcoa (López Gijón, 1996). Pero nada de lo anterior tendría mucho sentido si no fuera porque, una vez embarcados en la tarea de preparación de este libro sobre Técnicas cuantitativas aplicadas a la Biblioteconomía y Documentación, tuvimos conocimiento de que la Organización Internacional de Normalización (ISO) tiene muy avanzados los trabajos de preparación de una norma internacional de rendimiento (performance) de servicios bibliotecarios (ISO CD 11620). Una presentación preliminar de dicha nonna la realizó en IFLA 95 Pierre Carbone (1995) y es a través de esta comunicación como hemos conocido detalles suficientes de la misma. El hecho de que ISO esté preparando esta norma, y que en el congreso de IFLA 95 se tratara en la sección de estadística de los indicadores bibliotecarios, su función, los problemas que presentan, etc., nos hizo ver la necesidad de que en estos momentos, en lo que pretendemos sea un manual de Técnicas cuantitativas, era necesario dedicar una parte del mismo al tema de los indicadores. Un buen manual que nos puede servir para introducirnos en este campo es el de N. Van House; M. J. Lynch; C. McCIure, et al. (1987), recientemente acaba de traducirse "Keys to succes: Performance indicators for public libraries" (Claves, 1995). También en castellano puede consultarse "Medición de la eficacia de las bibliotecas públicas" (Moore, 1988). 6.2. Indicadores Es conocido que nuestro país, en estudios estadísticos, tiene una de las peores calidades de la Unión Europea. Pero en nuestro campo no podemos decir que los análisis estadísticos no estén a la altura de la media europea, sencillamente no existen. En Espaiía apenas se realizan evaluaciones objetivas de bibliotecas, la toma de decisiones no se basa en ningún criterio que podamos considerar consistente y la mayoría de las bibliotecas carecen de objetivos en su gestión. Es lógico, por tanto, que el uso de estadísticas y de indicadores de rendimiento sea escasa. Estos temas forman parte de un debate que está todavía pendiente de iniciarse. Por esta razón sería quizá más conveniente empezar planteando una serie de puntos sobre qué es evaluar, cómo se preparan las condiciones para evaluar, los diversos aspectos y problemas que plantea, para qué evaluar, qué evaluar, cómo se realiza la evaluación y los problemas de la medición, para terminar planteándonos la interpretación de resultados. Una vez discutidos estos puntos, es decir, enmarcados los indicadores en su contexto, estaríamos en mejores condiciones de ver distintos indicadores y saber para qué nos pueden servir y cómo utilizarlos. Sin embargo, dado que los puntos anteriores están ya de alguna manera desarrollados (López Gijón, 1996), nos ha parecido preferible dedicar este apartado a desarrollar los indicadores que aparecerán en la futura norma. El esquema que vamos a seguir en la mayoría de los casos será: primero aclarar el concepto del indicador, después daremos la fórmula para calcularlo, seguida de un ejemplo, para terminar viendo el análisis y uso de datos y las posibilidades que tiene el indicador de ser utilizado en la realización de nuevos cálculos. Como verá el lector hay indicadores muy fáciles de obtener, pues consisten sencillamente en una división. Otros tendrán más complejidad de cálculo y es posible que la futura norma ISO proponga la realización de dicho cálculo de forma diferente, pero si el concepto es el mismo es evidente que la forma de calcularlo es anecdótico y cada uno podrá hacerlo como le resulte más cómodo. Lo cierto es que aquellos indicadores que son más complejos son también los más potentes, pues nos permiten obtener información más pertinente. La utilización del ordenador para producir estos indicadores nos permitirá salvar el problema de su com plejidad y tener más información y de base más sólida para la evaluación y toma de decisiones. Puede ser que alguno de los indicadores que vamos a exponer a continuación no se recogan en la norma, o que en la norma aparezca alguno que nosotros no tratamos. Pero pensamos que este apartado del libro puede ser util para aquellas bibliotecas y bibliotecarios que quieran iniciarse o profundizar, según el caso, en las cuestiones de evaluación, cuantificación y toma de decisiones. Aunque cada indicador es independiente de los otros y se pueden calcular por separado los vamos a agrupar en grandes bloques, en función de lo que suelen medir, si bien cada biblioteca podrá hacer uso tan sólo de los que crea oportunos en función de sus objetivos y de lo que desee conocer: A) Uso y disponibilidad de la biblioteca: 1) Porcentaje de inscripciones en la biblioteca. 2) Asistencia a los actos de la biblioteca per cápita. 3) Visitas a la biblioteca per cápita. 4) Porcentaje de usuarios activos. 5) Puestos de lectura per cápita. B) Proceso técnico: 1) Tiempo de catalogación. C) Uso y disponibilidad de materiales: 1) Circulación per cápita. 2) Porcentaje de títulos localizados. 3) Porcentaje de materias localizadas. 4) Porcentaje de localización por hojeo. 5) Velocidad de suministro. 6) Media ponderada por horas de apertura semanal. D) Acceso a los materiales: 1) Capacidad básica de la biblioteca para suministrar materiales. E) Análisis de la colección: 1) Encuesta a los usarios. 2) Documentos que circulan y no circulan. 3) Porcentaje de fracasos en la búsqueda sobre catálogo. 4) Tasa de crecimiento anual. F) Sección de referencia: 1) Transacciones de referencia per cápita. 2) Porcentaje de transacciones de referencia finalizadas. G) Costos: 1) De catalogación. 2) Por título catalogado. 3) Por préstamo. 6.2.1. Uso y disponibilidad de la biblioteca 6.2.1.1. Porcentaje de inscripciones en la biblioteca - Concepto: Este indicador nos informa de la proporción de la población (comunidad a la que intenta servir la biblioteca) que está inscrita en la biblioteca. Fórmula: Número de socios de la biblioteca (S) dividido por la población (P) de la jurisdicción (SIP). El resultado se multiplica por cien para obtener el porcentaje. - EJEMPLO Una biblioteca debe atender una zona con una población de 5.430 usuarios, de os que 3.200 son socios de la biblioteca. Si dividimos la población (5.430) entre los Inscriptos (3.200) obtenemos 0.59, que multiplicado por 100 para obtener el porcenaje nos da que la proporción de inscripciones en la biblioteca es del 59%. - - 6.2.1.2. Análisis y uso de datos: Este indicador nos servirá para conocer el grado de penetración que tiene la biblioteca en la comunidad a la que sirve. Tendrá más sentido comparar este indicador en el transcurso del tiempo en la misma biblioteca que con otras. Otras posibilidades de aplicación del indicador: Conocer donde se localizan (a nivel de zona geográfica, estudios, hábitos ... ) los sectores de población que no están inscritos en la biblioteca. Asistencia a los actos de la biblioteca per casita - Concepto: Este indicador relaciona la asistencia a las actividades promovidas por la biblioteca, con la población de la jurisdicción. La asistencia a las actividades de la biblioteca per cápita se obtiene al finalizar el año y se tiene en cuenta el total de asistentes, aunque también podría hacerse una proyección a partir de una muestra. Fórmula: La asistencia a los actos (A) de la biblioteca se divide por la población (P) de la jurisdicción (AIP). EJEMPLO Una biblioteca sirve a una jurisdicción con una población de 25.837. La asistencia anual a las actividades del centro es de 12.807. Esta cantidad dividida por la población es igual a 0.5, que es la asistencia a los actos de la biblioteca per cápita. - Análisis y uso de datos: Los resultados de la puntuación de una biblioteca en esta medición deben ser analizados dentro de los grandes objetivos de la biblioteca. - Otras posibilidades de aplicación del indicador: Determinar la asistencia media para distintos actos. Analizar asistencia por tipo de actividad (hora del cuento, películas, conferencias, etc.). Determinar asistencia en actos juveniles por per cápita juvenil y asistencia a actividades de adultos por per cápita de adultos. 6.2.1.3. Visitas a la biblioteca per casita - Concepto: Este indicador mide el número de entradas que se producen en la biblioteca en un período de tiempo determinado. EJEMPLO Una biblioteca debe atender una zona con una población de 5.430 usuarios, de os que 3.200 son socios de la biblioteca. Si dividimos la población (5.430) entre los Inscriptos (3.200) obtenemos 0.59, que multiplicado por 100 para obtener el porcenaje nos da que la proporción de inscripciones en la biblioteca es del 59%. - - 6.2.1.2. Análisis y uso de datos: Este indicador nos servirá para conocer el grado de penetración que tiene la biblioteca en la comunidad a la que sirve. Tendrá más sentido comparar este indicador en el transcurso del tiempo en la misma biblioteca que con otras. Otras posibilidades de aplicación del indicador: Conocer donde se localizan (a nivel de zona geográfica, estudios, hábitos ... ) los sectores de población que no están inscritos en la biblioteca. Asistencia a los actos de la biblioteca per casita - Concepto: Este indicador relaciona la asistencia a las actividades promovidas por la biblioteca, con la población de la jurisdicción. La asistencia a las actividades de la biblioteca per cápita se obtiene al finalizar el año y se tiene en cuenta el total de asistentes, aunque también podría hacerse una proyección a partir de una muestra. Fórmula: La asistencia a los actos (A) de la biblioteca se divide por la población (P) de la jurisdicción (AIP). EJEMPLO Una biblioteca sirve a una jurisdicción con una población de 25.837. La asistencia anual a las actividades del centro es de 12.807. Esta cantidad dividida por la población es igual a 0.5, que es la asistencia a los actos de la biblioteca per cápita. - Análisis y uso de datos: Los resultados de la puntuación de una biblioteca en esta medición deben ser analizados dentro de los grandes objetivos de la biblioteca. - Otras posibilidades de aplicación del indicador: Determinar la asistencia media para distintos actos. Analizar asistencia por tipo de actividad (hora del cuento, películas, conferencias, etc.). Determinar asistencia en actos juveniles por per cápita juvenil y asistencia a actividades de adultos por per cápita de adultos. 6.2.1.3. Visitas a la biblioteca per casita - Concepto: Este indicador mide el número de entradas que se producen en la biblioteca en un período de tiempo determinado. - Fórmula: Número de puestos de lectura dividido por la población. EJEMPLO Una biblioteca cuenta con 75 puestos de lectura y tiene una población de 700 personas. La biblioteca tiene 0.11 puestos de lectura por individuo de la población. - Análisis y uso de datos: Este indicador podrá compararse con la normas nacionales o internacionales al respecto, lo que nos permitirá saber si la disponibilidad del centro es equiparable con lo que se considera idóneo. Otras posibilidades de aplicación del indicador: Conocer la tasa de ocupación de puestos que tiene la biblioteca. Adaptar el número de puestos de lectura, y por tanto el espacio, de la biblioteca (infantil, hemeroteca, etc.) a la utilización real que hacen los usuarios. 6.2.2. Proceso técnico 6.2.2.1. Tiempo de catalogación En el primer capítulo del libro, dentro del apartado de Medidas de centralización (1.1.1) se encuentra un punto sobre Cálculo de la media de datos agrupados (1.1.1.4). Como puede observarse en el ejemplo, se calcula el tiempo medio de cátalogación en una biblioteca. Por tanto, este ejemplo nos puede servir para calcular este indicador, tan sólo necesitamos sustituir los datos del ejemplo por los de la biblioteca que pretendemos evaluar. 6.2.3. Uso y disponibilidad de materiales 6.2.3. 1. Circulación per cápita - Concepto: La circulación per cápita mide el número de documentos que circulan en la biblioteca en relación a la población de la comunidad a la que sirve. La circulación anual es la circulación total de todos los materiales de la biblioteca. Estos materiales deben ser contados sólo cuando los deja la biblioteca en manos de los usuarios. Las transacciones que se produzcan por préstamo interbibliotecario se incluyen en este punto. Las prórrogas de préstamo se cuentan como nuevos préstamos. La población de la jurisdicción es el número de usuarios potenciales del área que la biblioteca se propone atender. Fórmula: Para calcular la circulación per cápita se divide la circulación anual (C) por la población (P) de la jurisdicción (CIP). EJEMPLO Una biblioteca con una circulación anual de 197.426 documentos el último año sirve a una población de 100.047 personas. Su circulación per cápita fue de 1.97 documentos para ese aiío. - Análisis y uso de datos: La circulación per cápita es una medida de la penetración de la biblioteca en la comunidad y del alcance de sus servicios, así como del uso que se hace de los materiales. El estudio de la circulación es uno de los aspectos fundamentales de la evaluación bibliotecaria, de ahí la importancia de su análisis. Los centros que cuenten con Sistemas Integrados de Gestión Bibliotecaria dispondrán de gran cantidad de datos para realizar estos análisis. Otras posibilidades de aplicación del indicador: En este indicador nos vamos a detener más para ver 'otras posibilidades', ya que si los indicadores que estamos analizando los calculamos con ordenador se pueden desarrollar muchas de las posibilidades que mencionamos en estos apartados y otras que podrán interesar a la biblioteca en cuestión. Este indicador se puede calcular también para distintos tipos de usuarios o de materiales, en cuyo caso dará mucha más información, por ejemplo, se puede detectar que la circulación per cápita varía muy significativamente de los usuarios tipo A a los usuarios tipo B. Esto mismo lo podemos hacer para los distintos tipos de materiales, y conocer la circulación que tienen monograflas, materiales no librarios, publicaciones periódicas, etc. Si generamos este indicador para una colección cuyo catálogo utiliza, por ejemplo, la clasificación CDU, podemos calcular la circulación per cápita para los fondos agrupados por clases. El cálculo de este indicador y su ampliación para los distintos tipos de usuarios, materiales o clases que acabamos de comentar, puede hacerse con una hoja de cálculo (López Gijón y Vilchez Pardo; 1994: 274). Tan sólo habrá que introducir los datos y la hoja nos calculará automáticamente la circulación per cápita, en general, por tipos de usuarios, por tipo de material, y si sustituimos los tipos de material por una clasificación nos da también la circulación per cápita en función de la clasificación seguida. Como puede observarse, con esta hoja se puede calcular también el porcentaje de circulación para los distintos materiales, así como el porcentaje de fondos. También con esta hoja de cálculo, puesto que se ha introducido el presupuesto para los distintos materiales, se puede calcular el porcentaje de presupuesto asignado a los distintos tipos de materiales (este cálculo también se podría hacer en función de una clasificación o por materias). Por la descripción que acabamos de hacer se ve que la introducción de los datos en una hoja de cálculo para producir los indicadores es muy rentable, pues permite un gran número de cálculos con tan solo diseñar la hoja. Podemos consultar Philip M. Clark (1985) para conocer un gran número de hojas de cálculo específicamente diseñadas para bibliotecas, que pueden ser muy útiles. 6.2.3.2. Porcentaje de títulos localizados - Concepto: Esta medición nos informa de la proporción de títulos específicos deseados por los usarios de una biblioteca que estaban en la colección en el momento de ser demandados. Los datos requeridos para obtener este indicador son el número de títulos buscados y el número de títulos encontrados. Estos datos se obtienen de una encuesta hecha a los usuarios en un período determinado. - Fórmula: Número de títulos localizados (TL) dividido por el número de títulos buscados (TLITB). El resultado se multiplica por cien para obtener el porcentaje. EJEMPLO Durante un período concreto, 420 usuarios entraron en la biblioteca, de los cuales 250 buscaron uno o varios títulos específicos. El total de títulos buscados fue de 280, de estos 198 fueron localizados. 198 dividido entre 280 da 0.707, que multiplicado por 100 para establecer el porcentaje da un 70.7% de títulos localizados. Análisis y uso de datos: Este indicador da información del grado en que la colección de la biblioteca satisface las demandas específicas de los usarlos, en lo que a títulos se refiere. Esta medición también refleja el grado en que los usuarios de la biblioteca son capaces de encontrar los materiales que buscan. Algunos usuarios no localizarán el material que desean, no porque no esté disponible en la biblioteca, sino porque ellos no saben encontrarlo. Por tanto deberán incrementarse el número y efectividad de ayudas para la localización de materiales, tales como señalización, formación de usuarios, etc. Otras posibilidades de aplicación del indicador. Calcular separadamente el porcentaje de títulos localizados por tipo de usuario Góvenes y adultos, profesores y alumnos ... ). Analizar el porcentaje de títulos localizados por secciones de la colección. Realizar un seguimiento de los títulos no encontrados, determinando su causa (tftulos no adquiridos, adquiridos pero no disponibles, disponibles pero no localizados por el usuario, títulos mal colocados... 6.2.3.3. Porcentaje de materias localizadas - Concepto: Este indicador es parecido al de porcentaje de títulos localizados. Mide las materias demandadas que están disponibles en la biblioteca. Los datos para realizar esta medición son el número de materias localizadas y el número de materias buscadas. Estos datos se obtienen de una encuesta hecha a los usuarios en un período determinado. El indicador se expresa como el porcentaje de materias a través de las cuales se encontraron documentos. Se incluyen en este indicador búsquedas del tipo "un libro de poesía barroca", "obras sobre metodología de la investigación en ciencias sociales", etc. Para contar las materias solicitadas, la unidad es la materia, no el número de documentos encontrados. Si un usuario busca información sobre elaboración de resúmenes y sobre técnicas de estudio, localizando solamente un libro y un artículo sobre el primer tema, pero ningún material sobre el segundo, se contará como dos materias buscadas y una localizada. Las peticiones recibidas por teléfono no se cuentan para calcular este indicador. - Fórmula: Número de materias localizadas (ML) dividido por el número de materias buscadas (MLIMB). Este resultado se multipica por cien para obtener el porcentaje. EJEMPLO Una biblioteca realiza una encuesta a 200 usuarios durante un periodo determinado: 80 de las respuestas indican que se solicitaron un total de 125 materias, de las cuales se localizaron 75. Se divide 75 (número de materias localizadas) por 125 (número de materias buscadas), el resultado es 0.6 que multiplicado por 100 para obtener el porcentaje da un 60% de materias localizadas. - Análisis y uso de datos: Este indicador da información del grado en que la colección de la biblioteca satisface las demandas específicas de los usuarios, en lo que a materias se refiere. Algunos usuarios no localizarán el material que desean no porque no esté disponible en la biblioteca, sino porque ellos no saben encontrarlo. Por tanto deberán incrementarse el número y efectividad de ayudas para la localización de materiales, tales como señalización, formación de usuarios, etc. Esta medición tiene relación con la anterior -porcentaje de tftulos localizados- por lo que deben ser analizadas paralelamente. Otras posibilidades de aplicación del indicador: Determinar el porcentaje de materias localizadas de forma separada para los distintos tipos de usuarios. Identificar secciones de la colección donde existen materias que no se encuentran. 6.2.3.4. Porcentaje de localización por hojeo - Concepto: Muchos usuarios dedican su tiempo a hojear en la colección de la biblioteca. Entendemos por hojear el ir mirando entre la colección de la biblioteca buscando algo de interés para el usuario. Lo que tenemos presente en esta medición es el número de usuarios que encuentran algo mientras que hojean comparado con el número total de usuarios que hojean. Los datos necesarios para producir este indicador son el número de usuarios que encuentran algo y el número total de los que hojearon. Estos datos se deben obtener a partir de una encuesta hecha a los usuarios en un período determinado. Fórmula: Número de usuarios que hojean y encuentran algo dividido por el número total de personas que hojearon. El resultado se multiplica por cien para producir el porcentaje. EJEMPLO De las 200 personas que completaron la encuesta, 164 indican que hojearon los materiales durante su visita a la biblioteca, 120 de los cuales localizaron algo. El número 120 -usuarios que encuentran algo- se divide por 164 -número de personas que hojearon-, lo que da 0.73. Se multiplica por cien para obtener el porcentaje, de donde resulta que el tanto por ciento de localización por hojeo es del 73%. - Análisis y uso de datos: Este indicador da información del grado en que la colección de la biblioteca satisface las demandas específicas de los usuarios. Algunos usuarios no localizarán el material que desean no porque no esté disponible en la biblioteca, sino porque no han sabido encontrarlo. Por tanto deberán incrementarse el número y efectividad de ayudas para la localización de materiales, tales como señalización, formación de usuarios, etc. Otras posibilidades de aplicación del indicador: Saber qué otras cosas hacen los usuarios en la biblioteca (estudiar, fotocopian..). - 6.2.3.5. Velocidad de suministro Concepto: Entenderemos por velocidad de suministro el tiempo que tarda la biblioteca en conseguir un documento, pedido por un usuario, que no forma parte en ese momento de la colección. Solamente tendremos presente aquellos documentos que, finalmente, se suministraron al usuario. Los no suministrados no se cuentan para producir este indicador aunque pueden ser objeto de otro indicador. - Fórmula: Para calcular la velocidad de suministro la biblioteca puede contar con un fichero en el que constan los datos de todos los documentos pedidos con la fecha en que se pidieron y cuando el documento se recibe se hace constar la fecha de recepción. Después, se calcula el número de dias que ha tardado en recibirse cada pedido (restando la fecha de recepción de la de petición). Con estos datos, al terminar el año la biblioteca tendrá un fichero en el que constará el número de dias que han tardado en recibirse cada uno de los pedidos. A partir de este fichero (que al estar todos los pedidos es la población) se puede elegir una muestra aleatoria de n pedidos y después calcular la mediana de esta muestra. El resultado del cálculo de la mediana será el tiempo mediano que tarda la biblioteca en suministrar los documentos. Otra forma de averiguar la velocidad de suministro sería recurrir al cálculo de la mediana de valores agrupados (apartado 1.1.1.5), para lo cual tendríamos que construir una tabla donde se recogen el número de pedidos que se corresponden con cada intervalo de tiempo y siguiendo este apartado y su ejemplo se puede realizar el cálculo del tiempo mediano de suministro de documentos. - Análisis y uso de datos: Nótese que hemos medido la velocidad de suministro hasta que la biblioteca recibe el documento, no hasta que lo tiene el usuario en mano. Para calcular esto tendríamos que sumar, a la velocidad de suministro, el tiempo que todavía tarda en estar el documento a disposición del usuario. - Otras posibilidades de aplicación del indicador. Las posibilidades que los indicadores ofrecen son muy amplias y están en relación con los conocimientos estadísticos que se posean. Por ejemplo, en este caso podemos suponer que las bibliotecas universitarias de la Universidad A tienen una velocidad de suministro en días de (22, 31, 34, 35, 32, 43, 23, 24) y las de la Universidad B (1 5, 23, 24, 15, 19, 20, 19, 20). Estas muestras podrían someterse a una prueba de hipótesis para ver si hay diferencias significativas entre los tiempos de suministro de las bibliotecas universitarias de estas dos Universidades. En caso de que existieran diferencias significativas las bibliotecas de la Universidad que tienen más velocidad deberian de ser estudiadas por las de la Universidad que tardan más tiempo en suministrar los documentos, para ver cual es la razón de que las bibliotecas de la otra Universidad sean más eficaces en este aspecto. 6.2.3.6. Media ponderada por horas de apertura semanales - Concepto: Este indicador no sirve simplemente para reflejar la media de horas que un centro está abierto por semana. Sino que en lugar de dar este resultado como un indicador, lo podemos someter a un factor de ponderación que lo relacione, por ejemplo, con el tamaño de la colección. Fórmula: Las medias de horas abiertas por semana, en el periodo determinado, se multiplican por el factor de ponderación, lo que nos da la media de horas abiertas en función del factor de ponderación (media ponderada). Luego se suman los resultados de estas medias ponderadas y este total se divide por el sumatorio de los factores de ponderación. - EJEMPLO Una biblioteca universitaria esta compuesta de una biblioteca general (BG), una biblioteca de campus (BC), una biblioteca de facultad (BF) y una biblioteca de un instituto universitario (BI). El número de volumenes de cada una de estas bibliotecas es: 41.000, 22.000, 10.000 y 7.000 en 1994. Para calcular el factor de ponderación se ha dividido por mil el número de fondos de cada una, lo que nos da un factor de ponderación de 41, 22, 10 y 7 (véase tabla columna dos). Y tienen en total una media de horas abiertas por semana en 1994 de 164 (véase tabla columna tres). Para calcular la media ponderada primero multiplicaremos el factor de ponderación por la media de horas abiertas (resultado en columna cuatro), después realizaremos el sumatorio de estos resultados (3.863) y por último dividiremos el sumatorio de las horas de apertura en función del factor de ponderación (3.863) entre el sumatorio del factor de ponderación (80). Lo que nos da una media ponderada de horas abiertas por semana de 48.3. BG BC BF BI Totales Factor de ponderación 41 22 10 7 80 Horas abierta (1994) 57 44 39 24 164 2.337 968 390 168 3863 Esta misma biblioteca universitaria para el año 1995 tiene una colección en cada biblioteca de 40.000, 23.000, 12.000 y 7.000 volúmenes. Para calcular el factor de ponderación dividimos por mil el número de volúmenes de cada centro, lo que nos da un factor de ponderación de 40, 23, 12, y 7 (véase tabla). Y tienen en total una media de horas abiertas por semana para 1995 de 173 (véase tabla). BG BC BF Bl Totales Factor de ponderación 40 23 12 7 82 Horas abierta (1994) 50 40 44 35 173 2.000 920 528 245 3.693 Para calcular la media ponderada para el año 1995 dividiremos el sumatorio de las horas de apertura en función del factor de ponderación (3.693) entre el sumatorio del factor de ponderación (82), lo que nos da una media ponderada de horas abiertas por semana para el año 1995 de 45. - Análisis y uso de datos: Como podemos observar viendo las tablas para los años 1994 y 1995, se ha producido un incremento de la media de horas abiertas por semana, se ha pasado de 164 a 173 horas, y si tomáramos estos datos (la media de horas de apertura) como indicador, este habria mejorado. Pero al poner las horas de apertura en relación con el factor de ponderación para calcular el indicador vemos que la media ponderada para el año 1994 ha sido 48.3 y para el año 1995 nos da 45. Por tanto, si el indicador que utilizamos es esta media ponderada en la biblioteca universitaria que estamos considerando se ha producido, como muestra el indicador, un empeoramiento. Obsérvese que el hecho de que este indicador sea peor para 1995 se debe a que las bibliotecas con mayores fondos (BG y BC) tienen una media de horas de apertura menor que en 1994, lo que hace que el indicador empeore. El hecho de que las bibliotecas con menor colección (BF y BI) abran más horas en 1995 que en el año anterior no sirve para la mejora del indicador, debido a sus pequeñas colecciones. Como se observa en el ejemplo, al quitarles horas abiertas a las colecciones mayores, la media ponderada por horas de apertura es muy sensible. Si se tuviera en cuenta sólo la media de horas de apertura, que es un indicador menos sensible, la visión que obtendríamos de la biblioteca sería distinta. Esta media ponderada se puede poner en relación con el tamaño de la colección, como acabamos de ver, o con otros aspectos relacionados con el uso de los puntos de servicio (factores de ponderación que se pueden utilizar son por ejemplo el espacio, el personal, puestos de lectura, etc.). Indicadores de ponderación, en los que el factor de ponderación pretende hacer a estos indicadores más sensible, se pueden utilizar para estudiar otros aspectos bibliotecarios. Un desarrollo más amplio de lo que puede ser esta próxima generación de indicadores puede verse en Sumsion y Ward (1995). 6.2.4. Acceso a los materiales 6.2.4.1. Capacidad básica de la biblioteca para suministrar materiales Para analizar este indicador nos vamos a basar en el seminario impartido por el profesor Lancaster (1995) en la Universidad de Granada a un grupo de profesores. Se trata de hacer un estudio sobre la capacidad básica de una biblioteca, es decir evaluar las posibilidades que tiene la biblioteca de satisfacer las necesidades de los usuarios con su propia colección. Se excluye, por tanto, el análisis de la capacidad que tiene una biblioteca de satisfacer demandas apoyándose en los fondos de otros centros -fuentes externas-. El estudio pretende abarcar varios objetivos: por un lado, la cobertura de la colección, es decir conocer los materiales poseídos y no poseídos por la biblioteca y determinar cuántos documentos de los que el usuario necesita están en la biblioteca y, por otro, la disponibilidad de dichos materiales, o sea determinar de los materiales que posee la biblioteca cuáles están disponibles en el momento de ser demandados. Para llevar a cabo la evaluación se decide que el mejor método a utilizar es una simulación. El trabajo se basa en el primer estudio de este tipo realizado por R. H. Orr et al. (1968) referido a bibliotecas biomédicas, posteriormente llamado 'Document Delivery Test'. Un trabajo de este tipo es una excelente herramienta para conocer la colección de una biblioteca, aunque quizá tenga más sentido aplicarlo en una biblioteca especializada que en una pública. Téngase en cuenta que aunque este indicador aparece bajo el epígrafe "Acceso a los materiales", podría agruparse igualmente en el siguiente "Análisis de la colección", pues se trata de un estudio de citas y estos aportan bastante información sobre la colección. 6.2.5. Análisis de la colección 6.2.5.1. Encuesta a los usuarios Para analizar la colección podemos recurrir a una muestra de usuarios y realizar una encuesta, en función de las preguntas de la encuesta se pueden obtener muchos datos que nos permiten conocer la colección. Por ejemplo, podemos preguntar por los documentos que han buscado y la biblioteca no poseia (fracaso) y por el número total de documentos buscados. Después se podrán hacer una serie de cálculos, como el índice de fracaso que tiene la colección, que calcularemos dividiendo el número de fracasos por el total de búsquedas. El resultado se puede muliplicar por cien para producir un porcentaje. Este cálculo está relacionado con indicadores ya vistos. En la encuesta se pueden recoger más datos (como materias que fracasan) y poder obtener más información sobre la colección. Es importante, especialmente para las bibliotecas que estén capacitadas, realizar estudios que sean amplios y engloben una serie de indicadores, pues los trabajos más amplios dan mejor visión y sugieren más relaciones entre variables que los indicadores por separado. Estos estudios amplios desarrollado por personal capacitado permiten además adaptarse a las características de la biblioteca y realizar la evaluación en función de sus necesidades. 6.2.5.2. Documentos que circulan y no circulan Si la biblioteca está en condiciones de obtener un listado tanto de los libros que circulan como de los que no circulan -para lo cual los centros que estén automatizados no deben tener especiales problemas- podrá, con el simple cotejo de estas dos listas, tener bastantes pistas sobre el comportamiento de la colección. El tratamiento de estas listas por procesos automáticos puede dar mucha información. 6.2.5.3. Porcentaje de fracasos en la búsqueda sobre catálogo Para producir este indicador podemos recurrir a una muestra de usuarios y preguntarles por los documentos que han buscado y no han encontrado (fracaso) y por el número total de documentos buscados. Después habrá que calcular el índice de fracaso de la búsqueda, que obtendremos dividiendo el número de fracasos por el total de búsquedas. El resultado se debe muliplicar por cien para producir el porcentaje. Lógicamente en la encuesta se pueden recoger más datos (como materias que fracasan) y podemos obtener más información sobre la colección. Nótese que estamos suponiendo que son fracasos del catálogo o de la colección, y no del usuario. También se puede construir un indicador para calcular el fracaso -errores- de los usuarios cuando buscan en el catálogo. 6.2.5.4. Tasa de crecimiento anual - Concepto: Este indicador nos permite conocer la tasa de crecimiento (o decrecimiento) que tiene un determinado recurso en la biblioteca durante un periodo de un año, como puede ser por ejemplo la colección, el presupuesto, el personal, etc. - Fórmula: Para calcular la tasa de crecimiento habrá que restar el valor de la variable tamaño de la colección al final del año, del valor de la misma variable al principio de dicho periodo, con lo que conseguimos saber el diferencial efectivo de la variable en el periodo considerado. El resultado de esta resta habrá que dividirlo por el valor de la variable al principio del periodo. VF-VP TC = VP donde: TC es la tasa de crecimiento. VF es el valor de la variable al final del periodo determinado. VP es el valor de la variable al principio del periodo determinado. El resultado puede multiplicarse por cien para expresarle, si se desea, de forma porcentual. EJEMPLO Una biblioteca cuenta con una colección de 258.373 volúmenes. Un año antes contaba con un fondo de 220.075 volúmenes y desea conocer la tasa de crecimiento que ha tenido durante este periodo. Para ello tendrá que restar el número de volúmenes con que contaba al final del periodo considerado (258.373), del número de volumenes con que contaba al principio (220.075), el resultado es 38.298. Después tendrá que dividir este resultado por el número de volúmenes que tenía la colección al principio (220.075) lo que nos da 0.17, que es su tasa de crecimiento para este periodo. Si lo pasamos a tanto por ciento tendremos que durante el año considerado la biblioteca ha tenido una tasa de crecimiento del 17%. Análisis y uso de datos: Aunque este indicador está en el apartado de Análisis de la Colección, nótese que se puede aplicar a todos los casos en que se quiera conocer la tasa de crecimiento de cualquier actividad. Hay que tener en cuenta que cuando una biblioteca desea conocer las tasas de actividad (crecimiento o decrecimiento) en la colección o en los ingresos económicos, debe aplicar el indicador de tasa de crecimiento. En ocasiones este indicador se ha calculado averiguando la proporción que supone el tamaño final de la colección respecto del tamaño inicial, en lugar de la proporción del diferencial respecto del valor inicial. Este indicador podrá ser comparado con estándares internacionales o nacionales que puedan existir de tasa de crecimiento. Otras posibilidades de aplicación del indicador: Esta fórmula la hemos utilizado para calcular la tasa de crecimiento, pero también nos puede servir para conocer el número de volúmenes que tenemos que adquirir si queremos mantener una tasa de crecimiento determinada. Para realizar este cálculo tan sólo tenemos que aplicar la fórmula: VF= (VP - TC) + VP VF = VP (TC + 1) en este caso la incógnita sería el valor final (VF) en lugar de la tasa de crecimiento, que es conocida. 6.2.6. Sección de referencia 6.2.6.1. Transacciones de referencia per cápita - - Concepto: Esta medición relaciona la cantidad de transacciones del servicio de referencia con la población a la que principalmente sirve la biblioteca. Para que una transacción de referencia sea contabilizada en esta medición se necesita que el personal referencista intervenga. Por tanto, las demandas de información que los usuarios resuelven por sí mismos no se contabilizan aquí. Fórmula: Número anual de transacciones de referencia (TR) dividido por la población (P) de la jurisdicción (TRIP). EJEMPLO Una biblioteca con un número anual de transacciones de referencia de 10.325 el último año sirve a una población de 8.246 habitantes. Sus transacciones en referencia per cápita son de 1.25 para ese afío. - - Análisis y uso de datos: Hay que tener presente que este indicador representa sólo el uso del servicio de referencia (carácter cuantitativo), no la precisión de dicho servicio. Esta medición refleja el grado en que una biblioteca es usada por su comunidad como un servicio de información. Otras posibilidades de aplicación del indicador: Determinar por separado las referencias en periodos vocacionales. Calcular el promedio de tiempo invertido en cada transacción de referencia. El tiempo empleado puesto en relación con los costos de referencia nos puede producir un indicador sobre el costo de las preguntas de referencia. 6.2.6.2. Porcentaje de transacciones de referencia finalizadas - Concepto: Esta medición representa la proporción de transacciones de referencia finalizadas con relación al total de transacciones formuladas en un determinado período. Se expresa como un porcentaje y se basa en una muestra de transacciones de referencia. Los datos para producir este indicador son el número de transacciones de referencia y el número de transacciones de referencia resueltas. Decidir si una transacción de referencia está resuelta corresponde al bibliotecario. - Las transacciones de referencia pueden ser: resueltas, redireccionadas (enviadas a otro centro), no resueltas y direccionales (de orientación o guía). Estas últimas no se tienen en cuenta para la producción de este indicador. Fórmula: Número de transacciones de referencia finalizadas (TF) dividido por el número total de transacciones de referencia (TFITR). Multiplicar el resultado por 100 para obtener el porcentaje de referencia resuelto. EJEMPLO El número total de transacciones de referencia realizadas fue de 1.973, de estas 1.492 constituyen el número de transacciones de referencia resueltas. La división de las resueltas entre las totales da 0.76, multiplicamos por 100 para producir el porcentaje y obtenemos el 76% de transacciones de referencia resueltas. - Análisis y uso de datos: Esta medición permite observar el grado en que el servicio de referencia resuelve satisfactoriamente las necesidades de los usuarios. Este indicador debe ser interpretado dentro del contexto de los objetivos de la biblioteca que lo obtuvo. El porcentaje de refencia resuelto presupone la exactitud de las transacciones consideradas como resueltas. La verificación de esta exactitud determinada por medidas objetivas y/o la percepción de los usuarios requiere el uso del apartado siguiente. Otras posibilidades de aplicación del indicador: Determinar desde el punto de vista del usuario, mediante encuestas, si las transacciones de referencia fueron resueltas o no. Determinar el porcentaje de transacciones resueltas que son correctas. Determinar el porcentaje de transacciones redireccionadas a otros centros y las no resueltas. 6.2.7. Costos 6.2.7.1. De catalogación - Concepto: El costo de catalogación es el dinero total que le cuesta a la biblioteca el proceso de catalogación. Fórmula: Para calcular el costo total de catalogación tenemos que saber el tiempo total que emplea la biblioteca en catalogar en un periodo determinado (un año) y el costo en pesetas de una unidad (una hora). Después habrá que multiplicar el tiempo total por el coste en pesetas de la unidad elegida. - EJEMPLO Una biblioteca dedica 220 horas al proceso de catalogación en un periodo determinado (un año) y el coste de una hora de catalogación para ese centro es de 1.973 ptas. Por tanto el costo de catalogación es 434.060 ptas en el periodo considerado. 6.2.7.2. Por título catalogado - Concepto: Este indicador nos informa de lo que le cuesta en pesetas a una biblioteca cada título que cataloga. Fórmula: Para calcular el costo por título catalogado hay que dividir los costos de catalogación (el indicador visto antes) por el número total de títulos catalogados, ambos para un periodo determinado. - EJEMPLO Una biblioteca tiene unos costos de catalogación de 2.854.430 en un año y cataloga en ese periodo 1.994 documentos. Luego el costo de catalogación por título es de 1.432 ptas. 6.2.7.3. Porpréstamo - Concepto: Este indicador mide lo que le cuesta a la biblioteca cada préstamo que realiza. Para calcular este indicador se necesita conocer el total de gastos (netos) y el total de préstamos (en este total se pueden incluir todo tipo de préstamos, sean en sala, a domicilio ... ). - Fórmula: Para calcular este indicador tenemos que dividir el total de gastos (netos) entre el total de préstamos. EJEMPLO Una biblioteca tiene unos gastos netos de 6.454.330 y un total de préstamos de 12.365. Luego el costo por préstamo es de 522 ptas. - Análisis y uso de datos: Como podemos ver, algunos indicadores no son muy representativos de la actividad de la biblioteca. Por ejemplo, en este caso podemos pensar que una biblioteca hace más cosas además de prestar, como referencia.... por eso cada biblioteca tendrá que adaptar la evaluación a las necesidades y objetivos que ese centro se marque. - Otras posibilidades de aplicación para todos los indicadores de costos: Los análisis de costos y de costos-beneficios son fundamentales para saber cuantos recursos (dinero, tiempo de personal ... ) utiliza la biblioteca para dar el servicio. Y una vez conocidos estos costos ver si se pueden aminorar, o si con los mismos recursos se pueden ofrecer más servicios. Hay que tener presente que la biblioteca produce un beneficio social que es dificil de cuantificar, pero esto no quita, y más en nuestro país donde estos temas parecen tabú, para que las bibliotecas necesiten conocer mejor los costos que tienen y los resultados que producen. Aquí sólo hemos incluido algunos indicadores de costos, pero es evidente que se pueden aplicar a todos los servicios de la biblioteca (costos de referencia, de adquisiciones, etc.).