Estadística Saltar a navegación, búsqueda Para análisis, datos y gráficas sobre Wikipedia, véase Wikipedia:Estadísticas. La estadística es una ciencia con base matemática referente a la recolección, análisis e interpretación de datos, que busca explicar condiciones regulares en fenómenos de tipo aleatorio. Distribución normal. Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales. La estadística se divide en dos elementos: La estadística descriptiva, que se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, clústers, etc. La estadística inferencial, que se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen anova, series de tiempo y minería de datos. Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay también una disciplina llamada estadística matemática, la cual se refiere a las bases teóricas de la materia. La palabra «estadísticas» también se refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas económicas, estadísticas criminales, etc. ORDENANDO LA INFORMACION D i s t ri bu c i ón d e f r e cue nci a s La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente . Tipos de frecuencias Frecuencia absoluta La frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico. Se representa por fi. La suma de las frecuencias absolutas es igual al número total de datos, que se representa p or N. Para indicar resumidamente estas sumas se utiliza griega Σ (sigma mayúscula) que se lee suma o sumatoria. la letra Frecuencia relativa La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. Se puede expresar en tantos por ciento y s e representa por ni. La suma de las frecuencias relativas es igual a 1. Frecuencia acumulada La frecuencia acumulada absolutas de todos los es valores la suma de inferiores o las frecuencias iguales al valor considerado. Se representa por Fi. Frecuencia relativa acumulada La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un determinado valor y el número total de datos. Se puede expresar en tantos por ciento. Ejemplo Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas: 32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 2 9, 29. En la primera columna de la tabla colocamos la variable ordenada de menor a mayor, en la segunda hacemos el recuento y en la tercera anotamos la frecuencia absoluta. xi Recuento fi Fi ni Ni 27 I 1 1 0.032 0.032 28 II 2 3 0.065 0.097 29 6 9 0.194 0.290 30 7 16 0.226 0.0516 31 8 24 0.258 0.774 32 III 3 27 0.097 0.871 33 III 3 30 0.097 0.968 34 I 1 31 0.032 1 31 1 Este tipo de tablas de frecuencias se utiliza con variables discretas. D i s tr i b uci ó n d e f r e cue nci a s a g rup a d a s La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables toman un número grande de valores o la variable es continua . Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente . Límites de la clase Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase . Amplitud de la clase La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase. Marca de clase La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo el intervalo para el cálculo de algunos parámetros. Co ns t r ucci ó n d e una t a b l a d e da t o s a g r u p a d o s 3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13. 1º Se localizan los valores menor y mayor de la distribución. En este caso son 3 y 48. 2º Se restan y se busca un número entero un poco mayor que la diferencia y que sea divisible por el número de intervalos queramos establecer. Es conveniente que el número de intervalos oscile entre 6 y 15. En este caso, 48 - 3 = 45, incrementamos el número has ta 50 : 5 = 10 intervalos. Se forman los intervalos teniendo presente que el límite inferior de una clase pertenece al intervalo, pero el límite superior no pertenece intervalo, se cuenta en el siguiente intervalo. ci fi Fi ni Ni [0, 5) 2.5 1 1 0.025 0.025 [5, 10) 7.5 1 2 0.025 0.050 [10, 15) 12.5 3 5 0.075 0.125 [15, 20) 17.5 3 8 0.075 0.200 [20, 25) 22.5 3 11 0.075 0.2775 [25, 30) 27.5 6 17 0.150 0.425 [30, 35) 32.5 7 24 0.175 0.600 [35, 40) 37.5 10 34 0.250 0.850 [40, 45) 42.5 4 38 0.100 0.950 [45, 50) 47.5 2 40 0.050 1 40 1 DEFINICIÓN Las tablas de frecuencias sirven para ordenar y organizar los datos estadísticos. Con ellas, una masa amorfa de datos pasa a ser una colección ordenada y perfectamente inteligible. - FRECUENCIAS (ABSOLUTAS) Con los datos se construye la tabla de frecuencias: En la primera columna, la variable xi, con todos sus posibles valores. Si la variable es continua tomaremos como xi, la marca de clase, es decir, el punto medio de cada intervalo. En la segunda columna, la correspondiente frecuencia, fi: número de veces que aparece cada valor. EJEMPLO 1: Variable discreta: Calificaciones en matemáticas de 40 alumnos de una clase. EJEMPLO 3: Variable discreta tratada como continua: Al hacer balance en una oficina bancaria se tienen anotadas las 145 cuentas corrientes correspondientes a los diferentes clientes con que cuenta. Para facilitar su estudio se agrupan según un intervalo de valores. A cada intervalo se le llama CLASE. El valor de cada cuenta está en Euros. Construye, paso a paso, la siguiente tabla de frecuencias : FRECUENCIAS RELATIVAS Cuando se desea comparar varias distribuciones similares con distinto número de elementos, se debe recurrir a las frecuencias relativas. Estas vienen dadas en : "tanto por uno" (fr) o en "tantos por ciento" (%). Si N es el número de individuos: fr = % = 100.fr = Ejemplo: Vamos a completar un poco más la Tabla de Frecuencias. Extrayendo de cada Clase o Modalidad el valor medio (marca de clase), podemos prescindir de la columna de Clases para todo lo que sigue. Construye, paso a paso, la siguiente tabla de frecuencias: FRECUENCIAS ACUMULADAS En una distribución de frecuencias, se llama frecuencia acumulada, Fi, correspondiente al valor i-ésimo, xi, a la suma de la frecuencia de ese valor con todas las anteriores: Fi = f1 + f2 + .... + fi. Análogamente se puede definir frecuencia relativa acumulada o porcentaje acumulado. Ejemplo: Observa la siguiente escena, si tomamos la variable estadística número 1 tenemos la tabla de frecuencia de una variable discreta, las notas de una prueba de matemáticas de 40 alumnos. Si tomamos la variable 2 se trata de la tabla de frecuencias (no completa) de una variable continua, las alturas de un grupo de 33 alumnos. Actividades: 1.- Traslada la tabla de frecuencias del caso discreto a tu cuaderno, observando como han sido calculadas cada una de las frecuencias. 2.- Comprueba que la suma de todas las frecuencias absolutas es igual al número de alumnos y que la suma de todas las frecuencias relativas es igual a 1. 3.- Pasa a la variable continua utilizando el pulsador, y traslada a tu cuaderno la tabla de frecuencias incompleta. Calcula las marcas de clase, frecuencia absoluta, frecuencia relativa, frecuencia absoluta acumulada y frecuencia relativa acumulada y completa la tabla. TABLAS CON DATOS AGRUPADOS Cuando en una distribución estadística el número de valores que toma la variable es muy grande, conviene elaborar una tabla de frecuencias agrupándolos en intervalos. Para ello: Se localizan los valores extremos, a y b, y se halla su diferencia, r = b-a Se decide el número de intervalos que se quiere formar, teniendo en cuenta la cantidad de datos que se poseen. El número de intervalos no debe ser inferior a 6 ni superior a 15. Se toma un intervalo, r', de longitud algo mayor que el recorrido r y que sea múltiplo del número de intervalos, con objeto de que estos tengan una longitud entera. Se forman los intervalos de modo que el extremo inferior del primero sea algo menor que a y el extremo superior del último sea algo superior a b. Es deseable que los extremos de los intervalos no coincidan con ninguno de los datos. Para ello, puede convenir que dichos extremos tengan valores no enteros. Cuando se elabora una tabla con datos agrupados, se pierde algo de información (pues en ella se ignora cada valor concreto, que se difumina dentro de un intervalo). A cambio, se gana en claridad y eficacia. TABLA DE FRECUENCIAS COMPLETA Ejercicio: Completa la siguientes tabla con todo lo aprendido (Frec. absoluta, Frec. relativa, Frec. relativa en %, y todas las acumuladas) e Diagrama de tallo y hojas Un diagrama donde cada valor de datos es dividido en una "hoja" (normalmente el último dígito) y un "tallo" (los otros dígitos). Por ejemplo "32" sería dividido en "3" (tallo) y "2" (hoja). Los valores del "tallo" se escriben hacia abajo y los valores "hoja" van a la derecha (o izquierda) del los valores tallo. El "tallo" es usado para agrupar los puntajes y cada "hoja" indica los puntajes individuales dentro de cada grupo. EL DIAGRAMA DE TALLO Y HOJA Es una técnica estadística para representar un conjunto de datos. Cada valor numérico se divide en dos partes. El o los dígitos principales forman el tallo y los dígitos secundarios las hojas. Los tallos están colocados a lo largo del eje vertical, y las hojas de cada observación a lo largo del eje horizontal. Ejemplo La siguiente distribución de frecuencia muestra el número de anuncios comerciales pagados por los 45 miembros de Greater Buffalo Automobile Dealer´s Association en 1999. Observemos que 7 de los 45 comerciantes pagaron entre 90 y 99 anuncios (pero menos de 100). Sin embargo, ¿El numero de comerciantes pagados en esta clase se agrupan en alrededor de 90, están dispersos a lo largo de toda clase, o se acumulan alrededor de 99? No podemos saberlo. 90 a 100 7 100 a 110 6 110 a 120 9 120 8 a 130 130 a 140 7 140 a 150 3 150 a 160 3 sumatoria de la frecuencia= 45 Una técnica que se usa para presentar información cuantitativa en forma condensada es el diagrama de tallo y hoja. En el ejemplo anterior no se da la identidad de los valores de la clase de 90 a 100. Para ilustrar la construcción de un diagrama de tallo y hojas usando el número de comerciales comprados, supongamos que las 7 observaciones en la clase de 90 a 100 sean 96, 94, 93, 94, 95, 96, 97. EL valor de tallo es el digito o dígitos principales, en este caso el 9. Las hojas son los dígitos secundarios. EL tallo se coloca a la izquierda de una línea vertical y los valores de las hojas a la derecha. Los valores de las clases de 90 a 100, aparecerían como sigue: 9|6434567 Por ultimo, ordenamos los valores dentro de cada tallo de menor a mayor. El segundo renglón del diagrama de tallo y hojas aparecería como sigue: 9|3445667 Con el diagrama de tallo y hojas podemos observar rápidamente que hubo 2 comerciantes que compraron 94 comerciales y que el número de anuncios comprados fue desde 93 hasta 97. Un diagrama de tallo y hojas es semejante a una distribución de frecuencia, pero con más información, esto es, valores de datos en lugar de marcas. La realización de los estudios clínico-epidemiológicos implica finalmente emitir unos resultados cuantificables de dicho estudio o experimento. La claridad de dicha presentación es de vital importancia para la comprensión de los resultados y la interpretación de los mismos. A la hora de representar los resultados de un análisis estadístico de un modo adecuado, son varias las publicaciones que podemos consultar1. Aunque se aconseja que la presentación de datos numéricos se haga habitualmente por medio de tablas, en ocasiones un diagrama o un gráfico pueden ayudarnos a representar de un modo más eficiente nuestros datos. En este artículo se abordará la representación gráfica de los resultados de un estudio, constatando su utilidad en el proceso de análisis estadístico y la presentación de datos. Se describirán los distintos tipos de gráficos que podemos utilizar y su correspondencia con las distintas etapas del proceso de análisis. Análisis descriptivo. Cuando se dispone de datos de una población, y antes de abordar análisis estadísticos más complejos, un primer paso consiste en presentar esa información de forma que ésta se pueda visualizar de una manera más sistemática y resumida. Los datos que nos interesan dependen, en cada caso, del tipo de variables que estemos manejando2. Para variables categóricas3, como el sexo, estadio TNM, profesión, etc., se quiere conocer la frecuencia y el porcentaje del total de casos que "caen" en cada categoría. Una forma muy sencilla de representar gráficamente estos resultados es mediante diagramas de barras o diagramas de sectores. En los gráficos de sectores, también conocidos como diagramas de "tartas", se divide un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Un ejemplo se muestra en la Figura 1. Como se puede observar, la información que se debe mostrar en cada sector hace referencia al número de casos dentro de cada categoría y al porcentaje del total que estos representan. Si el número de categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de tres categorías. En este caso se pueden apreciar con claridad dichos subgrupos. Los diagramas de barras son similares a los gráficos de sectores. Se representan tantas barras como categorías tiene la variable, de modo que la altura de cada una de ellas sea proporcional a la frecuencia o porcentaje de casos en cada clase (Figura 2). Estos mismos gráficos pueden utilizarse también para describir variables numéricas discretas que toman pocos valores (número de hijos, número de recidivas, etc.). Para variables numéricas continuas, tales como la edad, la tensión arterial o el índice de masa corporal, el tipo de gráfico más utilizado es el histograma. Para construir un gráfico de este tipo, se divide el rango de valores de la variable en intervalos de igual amplitud, representando sobre cada intervalo un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de los datos en cada intervalo y el área de los rectángulos. Como ejemplo, la Tabla I muestra la distribución de frecuencias de la edad de 100 pacientes, comprendida entre los 18 y 42 años. Si se divide este rango en intervalos de dos años, el primer tramo está comprendido entre los 18 y 19 años, entre los que se encuentra el 4/100=4% del total. Por lo tanto, la primera barra tendrá altura proporcional a 4. Procediendo así sucesivamente, se construye el histograma que se muestra en la Figura 3. Uniendo los puntos medios del extremo superior de las barras del histograma, se obtiene una imagen que se llama polígono de frecuencias. Dicha figura pretende mostrar, de la forma más simple, en qué rangos se encuentra la mayor parte de los datos. Un ejemplo, utilizando los datos anteriores, se presenta en la Figura 4. Otro modo habitual, y muy útil, de resumir una variable de tipo numérico es utilizando el concepto de percentiles, mediante diagramas de cajas4,5. La Figura 5 muestra un gráfico de cajas correspondiente a los datos de la Tabla I. La caja central indica el rango en el que se concentra el 50% central de los datos. Sus extremos son, por lo tanto, el 1er y 3er cuartil de la distribución. La línea central en la caja es la mediana. De este modo, si la variable es simétrica, dicha línea se encontrará en el centro de la caja. Los extremos de los "bigotes" que salen de la caja son los valores que delimitan el 95% central de los datos, aunque en ocasiones coinciden con los valores extremos de la distribución. Se suelen también representar aquellas observaciones que caen fuera de este rango (outliers o valores extremos). Esto resulta especialmente útil para comprobar, gráficamente, posibles errores en nuestros datos. En general, los diagramas de cajas resultan más apropiados para representar variables que presenten una gran desviación de la distribución normal. Como se verá más adelante, resultan además de gran ayuda cuando se dispone de datos en distintos grupos de sujetos. Por último, y en lo que respecta a la descripción de los datos, suele ser necesario, para posteriores análisis, comprobar la normalidad de alguna de las variables numéricas de las que se dispone. Un diagrama de cajas o un histograma son gráficos sencillos que permiten comprobar, de un modo puramente visual, la simetría y el "apuntamiento" de la distribución de una variable y, por lo tanto, valorar su desviación de la normalidad. Existen otros métodos gráficos específicos para este propósito, como son los gráficos P-P o Q-Q. En los primeros, se confrontan las proporciones acumuladas de una variable con las de una distribución normal. Si la variable seleccionada coincide con la distribución de prueba, los puntos se concentran en torno a una línea recta. Los gráficos Q-Q se obtienen de modo análogo, esta vez representando los cuantiles de distribución de la variable respecto a los cuantiles de la distribución normal. En la Figura 6 se muestra el gráfico P-P correspondientes a los datos de la Tabla I que sugiere, al igual que el correspondiente histograma y el diagrama de cajas, que la distribución de la variable se aleja de la normalidad. Comparación de dos o más grupos. Cuando se quieren comparar las observaciones tomadas en dos o más grupos de individuos una vez más el método estadístico a utilizar, así como los gráficos apropiados para visualizar esa relación, dependen del tipo de variables que estemos manejando. Cuando se trabaja con dos variables cualitativas podemos seguir empleando gráficos de barras o de sectores. Podemos querer determinar, por ejemplo, si en una muestra dada, la frecuencia de sujetos que padecen una enfermedad coronaria es más frecuente en aquellos que tienen algún familiar con antecedentes cardiacos. A partir de dicha muestra podemos representar, como se hace en la Figura 7, dos grupos de barras: uno para los sujetos con antecedentes cardiacos familiares y otro para los que no tienen este tipo de antecedentes. En cada grupo, se dibujan dos barras representando el porcentaje de pacientes que tienen o no alguna enfermedad coronaria. No se debe olvidar que cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso el gráfico podría resultar engañoso. Por otro lado, la comparación de variables continuas en dos o más grupos se realiza habitualmente en términos de su valor medio, por medio del test t de Student, análisis de la varianza o métodos no paramétricos equivalentes, y así se ha de reflejar en el tipo de gráfico utilizado. En este caso resulta muy útil un diagrama de barras de error, como en la Figura 8. En él se compara el índice de masa corporal en una muestra de hombres y mujeres. Para cada grupo, se representa su valor medio, junto con su 95% intervalo de confianza. Conviene recordar que el hecho de que dichos intervalos no se solapen, no implica necesariamente que la diferencia entre ambos grupos pueda ser estadísticamente significativa, pero sí nos puede servir para valorar la magnitud de la misma. Así mismo, para visualizar este tipo de asociaciones, pueden utilizarse dos diagramas de cajas, uno para cada grupo. Estos diagramas son especialmente útiles aquí: no sólo permiten ver si existe o no diferencia entre los grupos, sino que además nos permiten comprobar la normalidad y la variabilidad de cada una de las distribuciones. No olvidemos que las hipótesis de normalidad y homocedasticidad son condiciones necesarias para aplicar algunos de los procedimientos de análisis paramétricos. Por último, señalar que también en esta situación pueden utilizarse los ya conocidos gráficos de barras, representando aquí como altura de cada barra el valor medio de la variable de interés. Los gráficos de líneas pueden resultar también especialmente interesantes, sobre todo cuando interesa estudiar tendencias a lo largo del tiempo (Figura 9). No son más que una serie de puntos conectados entre sí mediante rectas, donde cada punto puede representar distintas cosas según lo que nos interese en cada momento (el valor medio de una variable, porcentaje de casos en una categoría, el valor máximo en cada grupo, etc). Relación entre dos variables numéricas. Cuando lo que interesa es estudiar la relación entre dos variables continuas, el método de análisis adecuado es el estudio de la correlación. Los coeficientes de correlación (Pearson, Spearman, etc.) valoran hasta qué punto el valor de una de las variables aumenta o disminuye cuando crece el valor de la otra. Cuando se dispone de todos los datos, un modo sencillo de comprobar, gráficamente, si existe una correlación alta, es mediante diagramas de dispersión, donde se confronta, en el eje horizontal, el valor de una variable y en el eje vertical el valor de la otra. Un ejemplo sencillo de variables altamente correlacionados es la relación entre el peso y la talla de un sujeto. Partiendo de una muestra arbitraria, podemos construir el diagrama de dispersión de la Figura 10. En él puede observarse claramente como existe una relación directa entre ambas variables, y valorar hasta qué punto dicha relación puede modelizarse por la ecuación de una recta. Este tipo de gráficos son, por lo tanto, especialmente útiles en la etapa de selección de variables cuando se ajusta un modelo de regresión lineal. Otros gráficos. Los tipos de gráficos mostrados hasta aquí son los más sencillos que podemos manejar, pero ofrecen grandes posibilidades para la representación de datos y pueden ser utilizados en múltiples situaciones, incluso para representar los resultados obtenidos por métodos de análisis más complicados. Podemos utilizar, por ejemplo, dos diagramas de líneas superpuestos para visualizar los resultados de un análisis de la varianza con dos factores (Figura 11). Un diagrama de dispersión es el método adecuado para valorar el resultado de un modelo de regresión logística (Figura 12). Existen incluso algunos análisis concretos que están basados completamente en la representación gráfica. En particular, la elaboración de curvas ROC (Figura 13) y el cálculo del área bajo la curva constituyen el método más apropiado para valorar la exactitud de una prueba diagnóstica. Hemos visto, por lo tanto, como la importancia y utilidad que las representaciones gráficas pueden alcanzar en el proceso de análisis de datos. La mayoría de los textos estadísticos y epidemiológicos4 hacen hincapié en los distintos tipos de gráficos que se pueden crear, como una herramienta imprescindible en la presentación de resultados y el proceso de análisis estadístico. No obstante, es difícil precisar cuándo es más apropiado utilizar un gráfico que una tabla. Más bien podremos considerarlos dos modos distintos pero complementarios de visualizar los mismos datos. La creciente utilización de distintos programas informáticos hace especialmente sencillo la obtención de las mismas. La mayoría de los paquetes estadísticos (SPSS, STATGRAPHICS, S-PLUS, EGRET,...) ofrecen grandes posibilidades en este sentido. Además de los gráficos vistos, es posible elaborar otros gráficos, incluso tridimensionales, permitiendo grandes cambios en su apariencia y facilidad de exportación a otros programas para presentar finalmente los resultados del estudio. Figura 1. Ejemplo de gráfico de sectores. Distribución de una muestra de pacientes según el hábito de fumar. Figura 2. Ejemplo de gráfico de barras. Estadio TNM en el cáncer gástrico. Tabla I. Distribución de frecuencias de la edad en 100 pacientes. Edad 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 41 42 Nº de pacientes 1 3 4 7 5 8 10 8 9 6 6 4 3 4 5 3 2 3 1 2 3 1 1 1 Figura 3. Ejemplo de un histograma correspondiente a los datos de la Tabla I. Figura 4. Polígono de frecuencias para los datos de la Tabla I. Figura 5. Ejemplo de un diagrama de caja correspondiente a lo datos en la Tabla I. Figura 6. Gráfico P-P de normalidad para los datos de la Tabla I. Figura 7. Diagrama de barras agrupadas. Relación entre la presencia de alguna enfermedad coronaria y los antecedentes cardiacos familiares en una muestra. Figura 8. Barras de error. Variación en el índice de masa corporal según el sexo. Figura 9. Gráfico de líneas. Número de pacientes trasplantados renales en el Complexo Hospitalario "Juan Canalejo" durante el periodo 1981-1997. Figura 10. Diagrama de dispersión entre la talla y el peso de una muestra de individuos. Figura 11. Dos diagramas de líneas superpuestos. Variación en el peso medio de una muestra de recién nacidos según el control ginecológico del embarazo y el hábito de fumar de la madre. Figura 12. Diagrama de dispersión (regresión logística). Probabilidad de padecer cirrosis hepática, según un modelo de regresión logística ajustando por el % de protrombina y el presentar o no hepatomegalia. Figura 13. Curva ROC para el porcentaje de protrombina en la predicción de cirrosis. IMPACTO DE LA COMPUTADORA EN LA ENSEÑANZA DE LA ESTADÍSTICA Esta sección presenta la evolución del uso de la computadora, algunas de sus aplicaciones típicas y los riesgos que ello implica. Los primeros usos del software estadístico en la enseñanza de la estadística han sido la presentación de "output" impresos a los alumnos para interpretar resultados. La masividad en la Universidad y el costo de las computadoras, hacían imposible otra forma de presentar dicho software. Esta forma de presentación no hacía más que sustituir la antigua formulación del problema por la que proporciona el output. El alumno adquiría destreza de donde buscar los resultados que le interesan en ese universo de indicadores que figuran en la salida. En su momento, los profesores que aplicaban esta técnica creían que estaban innovando en la forma de enseñar estadística. Y sí lo estaban haciendo porque evitaban cálculos engorrosos (por ejemplo cuando se planteaba una regresión múltiple o técnicas de clustering, entre otros). Pero fue un primer paso en un largo camino. Ahora se está en condiciones de desarrollar un análisis en clase conjuntamente con los alumnos, discutiendo los pasos a seguir, sin plantear uno solo como el único o dar un conjunto de datos para que ellos desarrollen sus propios trabajos. La simulación es un ejemplo de cómo utilizar el computador en la estadística aplicada. Existen software que simulan sistemas físicos, sociales o empresariales. Uno de las más sencillos y conocidos trata de simular la toma de decisiones en diversos escenarios y analizar sus resultados en un entorno competitivo. El alumno debe manejar varias variables en procura de maximizar las ganancias de su empresa. Modelizar por computadora se critica porque se basa en "la fuerza bruta". Por ejemplo, en el desarrollo de un estudio de la demanda de un producto, se puede generar una gran cantidad de modelos ( utilizando todas las variables disponibles en una tabla de datos ) para luego elegir el "mejor". Esto puede llevar a generar modelos erróneos conceptualmente. Por esto mismo, los autores opinamos que no es posible separar la estadística (y sus aplicaciones computacionales) del conocimiento de la disciplina a la que se está aplicando. Las computadoras ayudan a enriquecer el conocimiento de la disciplina, y no a llegar a "cosas sin explicación" o evidentemente equivocadas. Las áreas de análisis multivariado fueron las más beneficiadas por el uso de la computadora. Las técnicas a utilizar no se ven limitadas a pesar de que el número de variables sea considerable, ya que los problemas de cálculo se minimizan. Tampoco los gráficos resultan un escollo. Algunos profesores, en ausencia de impedimentos de cálculos, le piden al alumno que aplique tales o cuales métodos, incentivando de esta forma la destreza en el uso del software (y el conocimiento de muchas de sus variantes). Sin embargo, no hay una enseñanza orientada a la resolución de problemas (porque no se ha planteado un problema) sino a la aplicación de técnicas estadística sin un claro objetivo. Paradójicamente, el uso de la computadora ha generado nuevos problemas. Uno de ellos es que se corre el riesgo de desarrollar análisis que constituyen sólo un ejercicio de uso de software, sin dedicar el suficiente tiempo a analizar la coherencia y lógica detrás de los mismos. Algunos ejemplos son: Determinar medias y desviaciones estándar de variables con escala nominal, debido a que en la tabla de datos figuran códigos numéricos de las distintas categorías. Calcular la media y el desvío estándar de los números que identifican cada formulario. Asignar un número a cada individuo según el orden que ocupa, y concluir que su distribución es simétrica. Cuando los cálculos llevaban mucho tiempo, se debía pensar si era necesario realizar tal operación. Ahora que los cálculos no son obstáculo, muchas veces no se piensa qué es lo que se está haciendo. El momento de reflexión se realiza después de la etapa de cálculo y no antes. Ahora se dedica tiempo y esfuerzo en descartar análisis e indicadores sin sentido. Los Software estadísticos que facilitan una variedad de técnicas estadísticas descriptiva e inferencial, poco a poco, están cambiando la enseñanza de esta disciplina. Ya no es necesario concentrarse mucho en el manejo de fórmulas engorrosas. Esto puede conducir, a pretender el mismo objetivo que antes pero demorando menos o a usar la computadora para potenciar las posibilidades de la enseñanza de estadística. Nuestra opinión es que si bien las opciones anteriores no son excluyentes, se debe insistir más en el sentido de las técnicas, en su aplicación apropiada y en la buena interpretación de los resultados. 3. CAMBIOS SUGERIDOS AL INCORPORAR LA COMPUTADORA En esta sección sugerimos cambios que consideramos imprescindibles para una buena incorporación de la computadora en la enseñanza de la estadística. Ellos se refieren a la formación de los profesores, distribución de los tiempos, el uso de paquetes estadísticos versus planillas electrónicas y estudios de casos. La incorporación de computadoras a la enseñanza de la estadística implica que los profesores tienen que saber como manejar dicha tecnología. Además, si el uso de la tecnología involucra la posibilidad de cambios curriculares implica mucho más que los simples conocimientos sobre como activar máquinas y usar software. Significa cambios en las actitudes, creencias y modos de actuar del profesor. Si creemos que debemos "enseñar como nos enseñaron nuestros profesores" es difícil imaginar que un profesor, que nunca ha aprendido estadística usando computadoras, va a poder enseñar o guiar el aprendizaje de sus alumnos, usando las mismas. Tampoco hay que caer en el otro extremo, cualquier curso que utiliza computadoras no tiene porqué ser mejor que otro curso que no la utiliza. El rigor analítico no puede perderse porque se superen las dificultades de cálculo, de lo contrario caemos en usar una herramienta sin saber sus cómo y porqué. El efecto de la computadora sobre la enseñanza de la estadística es metodológico y de contenido. En cuanto a contenido se necesitarán más tópicos de metodología de la investigación estadística y análisis exploratorio de datos para apoyar el área de la computación. Del punto de vista metodológico hay que tomar en cuenta paquetes interactivos y gráficos que permiten cambiar el enfoque didáctico y poner menos énfasis en manipulaciones mecánicas, y más en el desarrollo de conceptos que permiten descubrir y explorar con la ayuda de computadoras. Podemos pensar que un curso de Estadística se divide en tres partes: teórico, resolución de ejercicios-práctico- y aplicación de la computadora. Muchas veces las dos primeras áreas se interrelacionan pero el uso de la computadora no se inserta adecuadamente. La enseñanza del software se considera un fin en sí mismo. La relación de tiempos es aproximadamente: 5 de teórico - práctico y 1 de computación. Nuestra propuesta en el uso de la computadora en la enseñanza de la estadística es modificar esta relación para aproximarla a una distribución que responda más adecuadamente al saber hacer (teórico-práctico 3 y computación 3). Queremos dejar muy claro que en ningún momento se pretende adiestrar en el uso de un software estadístico. Menos aún, en cuestiones informáticas. Queremos enfatizar siempre que la computadora es un mero instrumento, comparable a una calculadora.. Existe mucho software estadístico que sirve como apoyo del profesor para mostrar en forma precisa y rápida las gráficas e indicadores estadísticos. Con estos software los profesores pueden trabajar bien las gráficas y los indicadores, y mostrar rápidamente lo que pasa al cambiar los datos. Generalmente resulta una confusión si el profesor dispone de nada más que pizarrón y transparencias. Si la computadora está presentando las gráficas, el profesor y los alumnos pueden fijarse en el comportamiento de los mismos, en vez de calcular y graficar. Se ha planteado en varias ocasiones la siguiente controversia: utilizar software estadístico o planilla electrónica. Nuestra experiencia nos ha mostrado que ambos son necesarios, dado que enfatizan diferentes aspectos. Las planillas electrónicas ( en sus utilización más sencilla ) han sido caracterizadas como una combinación de un papel cuadriculado con una calculadora. Ellas nos permiten enseñar los procedimientos de cálculo en forma rápida, pero destacando una forma procedural ( vamos indicando el procedimiento de cómo hacerlo ). Por ejemplo, ordenar los datos, ubicar el punto medio, determinar la mediana y copiar un resultado en otra celda, entre otros. En cambio los paquetes estadísticos actúan en forma no procedural, ( indicamos sólo lo qué queremos ). Un uso de la planilla electrónica que recomendamos especialmente es su aplicación para comprender la relación entre el coeficiente de correlación lineal de Pearson y el diagrama de dispersión. La planilla electrónica permite observar en forma simultánea los efectos que provoca la modificación de algún dato en el diagrama de dispersión y en el coeficiente de correlación. La enseñanza de la práctica de la estadística debería basarse en la resolución de estudios de casos. El software adecuado podría apoyar cursos basados en el estudio de casos, para presentar problemas prácticos que requieren: 1. 2. 3. 4. La formulación de hipótesis La recolección de datos La comprobación de hipótesis La comunicación de resultados e ideas Además, ayudan a cambiar el énfasis de los tradicionales "problemas de planteo" a "estudios de casos". En el desarrollo de "estudios de casos", el uso de la computadora implica dar mayor importancia a temas que antes no se priorizaban. Cuando se fomenta a los alumnos que desarrollen una investigación donde deban recolectar datos, se plantea el problema de cómo organizar luego la tabla de datos. Proponemos incluir en los cursos un capitulo dedicado a la creación de estas tablas. 4. CONCLUSIONES Presentamos en esta sección las conclusiones que se derivan de nuestro estudio, en relación a los contenidos teóricos de los cursos, la actividad del profesor y su relación con el alumno, y su efecto sobre los contenidos de las asignaturas. Una consecuencia inmediata de la incorporación de la computadora en los cursos de estadística es, en contra de lo que podría pensarse, el incremento que se produce en los contenidos teóricos. Eso tiene especial importancia dentro de lo que es la formación de estadística, ya que, para muchas carreras, la estadística será usada como una herramienta más de las que se cuenta en una oficina. Ya se ha mencionado que la computadora puede conducirnos a cambiar nuestro punto de vista acerca de la estadística y la actividad del profesor. El aspecto experimental en estadística es más prominente y los alumnos deben desarrollar habilidades como observar, explorar, formar nociones e intuiciones (generar hipótesis), predecir, probar hipótesis, conducir estas pruebas, controlar variables, simular, etc. Pero no hay que descuidar actividades estadísticas tradicionales, como cálculo de probabilidades, teoría del muestreo, etc. Las computadoras pueden cambiar la relación entre estudiantes y profesores, ya que éstas permiten al estudiante ser cognitivamente activo en estadística. La computadora puede ser un auxiliar didáctico del profesor como pizarrón electrónico, dentro del esquema tradicional cátedra-ejemplos-tarea-examen. o bien el alumno interactúa con la computadora y se llega a una estructura proyectointeracción entre alumno, máquina y profesor. Esto producirá una "revolución" en muchos salones de clase, ya que tendría que cambiar la metodología y las metas de la enseñanza y la evaluación del aprendizaje. Es importante notar que el uso razonable de computadoras requiere software con un buen estándar educativo, cuya integración al curriculum debe coordinarse con programas de actualización de los profesores para lo cual se necesitan recursos financieros. Peligros de un uso indiscriminado de computadoras requieren más investigación ya que puede causar una uniformización del pensamiento estadístico de los alumnos y la falta de diálogo entre alumno y profesor. No queremos dejar de mencionar que sobre el uso de la computadora en la enseñanza de la estadística está en juego, evidentemente, una cuestión de filosofía ¿Qué estadística tiene que saber un economista, un ingeniero, un sociólogo, un médico, etc.? En realidad parece claro que ese futuro economista, ingeniero, sociólogo, médico debe conocer conceptos estadísticos, precisamente aquellos que le posibiliten abordar problemas de su trabajo. Es mucho más discutible que tenga que saber las destrezas de cálculo asociadas a esos conceptos. Entre otras cosas, porque esas destrezas ponen al descubierto su misma limitación. Independientemente de la cuestión de los programas de las asignaturas no se puede ya objetar que quizá no siempre se tenga a mano una computadora. Programas como una planilla electrónica que funciona en cualquier ordenador personal cuyo costo es comparable al de una calculadora, cuyo manejo se aprende casi intuitivamente, ponen más al descubierto que el problema no es fundamentalmente de medios. Si las Universidades van a invertir dinero en hardware o software, es necesario intentar tener el mejor uso posible de dichos recursos. Algunas áreas de la estadística parecen ofrecer más posibilidades de un buen uso de las computadoras: 1. El estudiante debería adquirir la capacidad de juzgar si es razonable un resultado dado por una computadora. 2. La computadora podría ser útil para detectar errores de los alumnos y motivarlos para intensificar su actividad en estadística 3. El estudio de casos podría recibir más atención si una máquina está realizando cálculos engorrosos. También existen programas que permiten al alumno fijarse en estrategias específicas para el estudio de casos. 4. La representación gráfica se facilita con software que elabora gráficas rápidas y precisas, y permite el cambio de parámetros con facilidad. 5. Alumnos con dificultades para el cálculo matemático podrían adquirir destreza en la metodología de investigación estadística. En la metodología tradicional estas dificultades de cálculos prácticamente incapacitan al alumno, sin permitirle llevar a la etapa de interpretación de resultados y ubicación dentro de un contexto más amplio. Debemos ser conscientes, que podemos crear la figura del estudiante dependiente de la computadora en la aplicación de métodos estadísticos. ¿Qué sucede cuando un estudiante no tiene a mano la computadora para resolver problemas de otras asignaturas que utilicen cuestiones estadísticas?. La respuesta que dan los estudiantes es: "Que esas otras asignaturas cambien". Del mismo modo en que se ha suscitado este problema, es posible que haya otros aspectos negativos insospechados. Estamos recién empezando a sentir el impacto de la computadora sobre la enseñanza y el aprendizaje de la estadística. Muchas aplicaciones de la computadora en la educación aprovechan el aspecto dinámico del despliegue en la pantalla. La contribución de la computadora es la de una ayuda para el cálculo, para graficar y para desarrollar ideas, poniendo énfasis en metodología de la investigación estadística y el estudio del análisis exploratorio. La computadora por sí solo no mejora la enseñanza, tenemos que aprender a aprovecharla al máximo. 1. Indica que variables son cualitativas y cuales cuantitativas: 1 Comida Favorita. 2 Profesión que te gusta. 3 Número de goles marcados por tu equipo favorito en la última temporada. 4 Número de alumnos de tu Instituto. 5 El color de los ojos de tus compañeros de clase. 6 Coeficiente intelectual de tus compañeros de clase. 2. De las siguientes variables indica cuáles son discretas y cuales continuas. 1 Número de acciones vendidas cada día en la Bolsa. 2Temperaturas registradas cada hora en un observatorio. 3 Período de duración de un automóvil. 4 El diámetro de las ruedas de varios coches. 5 Número de hijos de 50 familias. 6 Censo anual de los españoles. 3. Clasificar las siguientes variables en cualitativas y cuantitativas discretas o continuas. 1 La nacionalidad de una persona. 2 Número de litros de agua contenidos en un depósito. 3 Número de libros en un estante de librería. 4 Suma de puntos tenidos en el lanzamiento de un par de dados. 5 La profesión de una persona. 6 El área de las distintas baldosas de un edificio. 4. Las puntuaciones obtenidas por un grupo en una prueba han sido: 15, 20, 15, 18, 22, 13, 13, 16, 15, 19, 18, 15, 16, 20, 16, 15, 18, 16, 14, 13. Construir la tabla de distribución de frecuencias y dibuja el polígono de frecuencias. 5. El número de estrellas de los hoteles de una ciudad viene dado por la siguiente serie: 3, 3, 4, 3, 4, 3, 1, 3, 4, 3, 3, 3, 2, 1, 3, 3, 3, 2, 3, 2, 2, 3, 3, 3, 2, 2, 2, 2, 2, 3, 2, 1, 1, 1, 2, 2, 4 , 1. Construir la tabla de distribución de frecuencias y dibuja el diagrama de barras. 6. Las calificaciones de 50 alumnos en Matemáticas han sido las siguientes: 5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7. Construir la tabla de distribución de frecuencias y dibuja el diagrama de barras. 7. Los pesos de los 65 empleados de una fábrica vienen dados por la siguiente tabla: [50, [60, [70, Peso fi [90, [100, [110, 100) 110) 120) 10 5 2 [80,90) 60) 70) 80) 8 10 16 14 1 Construir la tabla de frecuencias. 2 Representar el histograma y el polígono de frecuencias . 8. Los 40 alumnos de una clase han obtenido las siguientes puntuaciones, sobre 50, en un examen de Física. 3, 15, 24, 28, 33, 35, 38, 42, 23, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13. 1 Construir la tabla de frecuencias. 2 Dibujar el histograma y el polígono de frecuencias. 9. Sea una distribución estadística que viene dada por la siguiente tabla: xi 61 64 67 70 73 fi 5 18 42 27 8 Calcular: 1 La moda, mediana y media. 2 El rango, desviación media, varianza y desviación típica. 10.Calcular la media, la mediana y la moda de la siguiente serie de números: 5, 3, 6, 5, 4, 5, 2, 8, 6, 5, 4, 8, 3, 4, 5, 4, 8, 2, 5, 4. 11 Hallar la varianza y la desviación típica de la siguiente serie de datos: 12, 6, 7, 3, 15, 10, 18, 5. 12 Hallar la media, mediana y moda de la siguiente serie de números: 3, 5, 2, 6, 5, 9, 5, 2, 8, 6. 13. Hallar la desviación media, la varianza y la desviación típica de la series de números siguientes: 2, 3, 6, 8, 11. 12, 6, 7, 3, 15, 10, 18, 5. 14 Se ha aplicado un test a los empleados de una fábrica, obteniéndose la siguiente tabla: fi [38, 44) 7 [44, 50) 8 [50, 56) 15 [56, 62) 25 [62, 68) 18 [68, 74) 9 [74, 80) 6 Dibujar acumuladas. el histograma y el polígono de frecuencias 15. Dadas las series estadísticas: 3, 5, 2, 7, 6, 4, 9. 3, 5, 2, 7, 6, 4, 9, 1. Calcular: La moda, la mediana y la media. La desviación media, la varianza y la desviación típica. Los cuartiles 1º y 3º. Los deciles 2º y 7º. Los percentiles 32 y 85. 16. Una distribución estadística viene dada por la siguiente tabla: fi [10, [15, [20, [25, [30, 15) 20) 25) 30) 35) 3 5 7 4 2 Hallar: La moda, mediana y media. El rango, desviación media y varianza. Los cuartiles 1º y 3º. Los deciles 3º y 6º. Los percentiles 30 y 70. 17. Dada la distribución estadística: fi [0, [5, [10, [15, [20, [25, 5) 10) 15) 20) 25) ∞) 3 5 7 8 2 6 Calcular: La mediana y moda. Cuartil 2º y 3º. Media.