Diplomado en Salud Pública 2. Metodología en Salud Pública ESTADÍSTICA DESCRIPTIVA Autor: Clara Laguna En el capítulo anterior vimos que la Estadística es la Ciencia de la: Sistematización, recogida, ordenación y posterior presentación de los datos referentes a un fenómeno o hecho social para su estudio metódico, con objeto de DESCRIPTIVA deducir las leyes que rigen esos fenómenos, y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones INFERENCIA MUESTREO PROBABILIDAD Una vez que se han recogido los valores que toman las variables objeto de estudio, se procede al análisis descriptivo de los mismos. 2.1 REPRESENTACIÓN DE VARIABLES ESTADÍSTICAS Las tablas de frecuencia y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra. Aquí tenéis un esquema de los tipos de gráficos y las medidas estadísticas que podemos calcular dependiendo de la/s variables con la/s que estemos trabajando: Variables CUALITATIVAS: Representaciones gráficas: Diagramas de Sectores Diagramas de Barras Medidas numéricas Cuantiles (var. Ordinal) Variables CUANTITATIVAS: Representaciones gráficas: Diagramas de Barras (var. Discretas) Histograma (var. Continuas) Diagrama de caja (box-plot) Medidas numéricas Medidas de posición Medidas de dispersión Medidas de forma 02. Estadística descriptiva 1 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública 2.1.1 Tablas estadísticas Una distribución o tabla de frecuencias es una ordenación en formato tabular en la que se organizan los datos que hemos recogido en la muestra, asignando a cada uno de ellos el número de observaciones correspondiente. Si consideramos una población estadística con n individuos podemos obtener las siguientes magnitudes: Frecuencia absoluta (ni) es el número de individuos que presenta cada valor de la variable. Número de veces que se repite un determinado valor (í-esimo) de la variable. La suma de las frecuencias absolutas es igual al número total de observaciones, n. Frecuencia absoluta acumulada (Ni) es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado. Se interpreta como el número de observaciones menores o iguales a un determinado valor de la variable. Se calcula en variables cuantitativas y cualitativas ordinales. i N i n1 n2 ... ni n j j 1 Frecuencia relativa (fi) es el cociente entre la frecuencia absoluta de un determinado valor y el número total de observaciones. La frecuencia relativa es la proporción de veces que se repite un determinado valor. fi = ni n Obsérvese que fi es el tanto por uno de observaciones de cada valor. Multiplicado por 100% representa el porcentaje de la población. Frecuencia relativa acumulada (Fi) es el número de observaciones menores o iguales al í-esimo valor de la variable pero en forma relativa. Se calcula en variables cuantitativas y cualitativas ordinales. Muy útiles para calcular cuantiles. Fi i N i n1 ... ni f1 ... f i f j n n j 1 Tabla de frecuencia de datos no agrupados Los datos no agrupados son las observaciones realizadas en un estudio estadístico que se presentan en su forma original tal y como fueron recogidos, para obtener información directamente de ellos. La tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen los datos estadísticos sin que se haya hecho ninguna modificación al tamaño de las unidades originales. 02. Estadística descriptiva 2 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública Se emplean si las variables toman un número pequeño de valores o la variable es discreta. Nota media ni Ni fi Fi xi 1 2 3 4 5 6 7 8 9 10 TOTAL 1 2 5 9 14 23 20 15 8 3 1 3 8 17 31 54 74 89 97 100 n=100 0,01 0,02 0,05 0,09 0,14 0,23 0,2 0,15 0,08 0,03 1 0,01 0,03 0,08 0,17 0,31 0,54 0,74 0,89 0,97 1 Tabla 2.1 Distribución de la nota media final de curso de 100 alumnos Tabla de frecuencia de datos agrupados Es aquella distribución en la que los valores de las variables se encuentran agrupados en intervalos o clases. A cada clase se le asigna su frecuencia correspondiente. Se emplean generalmente si las variables toman un número grande de valores o la variable es continua. Cada clase está delimitada por el límite inferior y superior. Los intervalos se forman teniendo presente que el límite inferior de una clase pertenece al intervalo, pero el límite superior se cuenta en el siguiente intervalo [L0, L1). No existe una regla fija de cuantos son los intervalos que se deben hacer; hay diferentes criterios, la literatura especializada recomienda considerar entre 5 y 20 intervalos. Cuando trabajemos con estas tablas utilizaremos la marca de clase (xi), punto medio de cada intervalo, para el cálculo de las diferentes medidas estadísticas. Variable ni Ni L0 – L1 x1 n1 N1 L1 – L2 x2 n2 N2 xk nk Nk ... Lk-1 – Lk n Tabla 2.2 Datos agrupados en intervalos 02. Estadística descriptiva 3 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública Intervalo Marca clase xi [35,65) [65,95) [95,125) [125,155) [155,185) [185,215) TOTAL ni 50 80 110 140 170 200 Ni 9 7 6 1 1 1 n=25 fi 9 16 22 23 24 25 Fi 0,36 0,28 0,24 0,04 0,04 0,04 1 0,36 0,64 0,88 0,92 0,96 1 Tabla 2.3 Distribución del peso en Kilogramos de una muestra de 25 personas Para obtener la distribución de frecuencias, las medidas descriptivas de los datos y las representaciones gráficas con SPSS, se selecciona la opción Analizar / Estadísticos descriptivos / Frecuencias. Figura 2.1 Figura 2.2 02. Estadística descriptiva 4 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública Tabla 2.4 Tabla de frecuencias SPSS variable cualitativa Tabla 2.5 Tabla de frecuencias SPSS variable cualitativa Tabla 2.6 Tabla de frecuencias SPSS variable cuantitativa agrupada en intervalos Tabla 2.7 Tabla de frecuencias SPSS variable cuantitativa discreta 02. Estadística descriptiva 5 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública Como podemos ver en las tablas de frecuencias anteriores, con SPSS obtenemos la frecuencia absoluta (Frecuencia), la frecuencia relativa (Porcentaje) y la frecuencia relativa acumulada (Porcentaje acumulado). Además el Porcentaje válido que muestra la frecuencia relativa, expresada en tanto por cien, eliminando los casos con valores perdidos. 2.1.2 Representaciones gráficas Las representaciones gráficas son muy importantes en epidemiología y estadística, especialmente para propósitos descriptivos, ya que consiguen transmitir las características de la población de un solo vistazo. En el análisis e interpretación de los datos de un estudio, es importante no limitarse a realizar medidas de resumen numéricas. Las medidas de tendencia central y dispersión deben completarse con gráficos que permitan observar directamente las características y relaciones de las variables estudiadas. En este apartado vamos a explicar los principales métodos gráficos para presentar y resumir una variable aunque conforme vayamos desarrollando los diferentes temas iremos revisando el resto de gráficos. Los diagramas de barras son adecuados para representar variables cualitativas y cuantitativas discretas. En estos diagramas se representan las categorías de la variable en el eje horizontal y sus frecuencias (absolutas o relativas) en el eje vertical. Para cada categoría de la variable se construye un rectángulo de anchura constante y altura proporcional a la frecuencia. Los rectángulos están separados unos de otros por la misma distancia para reflejar la discontinuidad de la variable. 02. Estadística descriptiva 6 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública 100 Frecuencia 80 60 40 20 0 2 cm o menos 2-4 cm > 4 cm Invasivo Estado del tumor Figura 2.3 Diagramas de barras en SPSS para variables cualitativas Los gráficos de sectores son adecuados para representar variables cualitativas que siguen una escala estrictamente nominal. En estos gráficos se divide un círculo en tantas porciones como categorías tenga la variable, de modo que a cada categoría le corresponde un sector de círculo proporcional a su frecuencia absoluta o relativa. Figura 2.4 Gráfico de sectores en SPSS para la variable cualitativa Sexo del paciente El Histograma es el principal método gráfico para la representación de variables cuantitativas continuas. En primer lugar, los valores de la variable continua se agrupan en categorías exhaustivas (cubren todo el rango de la variable) y mutuamente excluyentes (no se solapan). En el eje horizontal del histograma se representan las categorías o intervalos y en el eje vertical las frecuencias (absolutas o relativas) de cada intervalo. Posteriormente, se construye un rectángulo para cada categoría, cuya anchura es igual a la longitud del intervalo y cuyo área es proporcional a la frecuencia (si los intervalos tienen distinta longitud, las alturas de los rectángulos del histograma no serán proporcionales a las frecuencias). El polígono de frecuencias se construye uniendo con líneas rectas los puntos medios de las bases superiores de los rectángulos que conforman un histograma. 02. Estadística descriptiva 7 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública Figura 2.5 Histograma en SPSS para la variable cuantitativa Peso Para realizar los gráficos que acabamos de ver en SPSS utilizamos el botón Gráficos de la opción Frecuencias (figura 2.6): Figura 2.6 02. Estadística descriptiva 8 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública 2.2 MEDIDAS DESCRIPTIVAS Hemos visto cómo se pueden resumir los datos obtenidos del estudio de una muestra (o una población) en una tabla estadística o un gráfico. No obstante, tras la elaboración de la tabla y su representación gráfica, en la mayoría de las ocasiones resulta más eficaz “condensar” dicha información en algunas medidas (estadísticos o parámetros) que la expresen de forma clara y concisa. Es decir, dado un grupo de datos organizados en una distribución de frecuencias (o bien una serie de observaciones sin ordenar), pretendemos describirlos mediante dos o tres medidas sintéticas. En este sentido pueden examinarse varias características, siendo las más comunes: La tendencia central de los datos La dispersión o variación con respecto a este centro Los datos que ocupan ciertas posiciones La simetría de los datos La forma en la que los datos se agrupan Siguiendo este orden, iremos estudiando los estadísticos que nos van a orientar sobre cada uno de estos niveles de información: valores alrededor de los cuales se agrupa la muestra, la mayor o menor fluctuación alrededor de esos valores, nos interesaremos en ciertos valores que marcan posiciones características de una distribución de frecuencias así como su simetría y su forma. Figura 2.7 Medidas representativas de un conjunto de datos estadísticos Medidas de tendencia central o de posición: Indican valores con respecto a los que los datos parecen agruparse. Medidas de dispersión: Indican la mayor o menor concentración de los datos con respecto a las medidas de posición. 02. Estadística descriptiva 9 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública Medidas de forma: Estudian la simetría y el apuntamiento de la distribución en comparación con la curva normal. 2.2.1 Medidas de tendencia central Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de otra forma, responden a la siguiente pregunta: ¿alrededor de qué valor se agrupan los datos observados?. Son el elemento fundamental de cualquier estadística descriptiva. 1. La primera y principal es la MEDIA aritmética, x .Se define como la suma de todos los valores (xi) dividido por el número total de observaciones (n). Corresponde al “centro de gravedad” de los datos de la muestra. Para datos sin agrupar: x = x xn 1 n xi 1 n i 1 n Para datos agrupados en intervalos (tabla 2.2): x xn i i i n Su principal inconveniente es que es muy sensible a los valores extremos (sobre todo si la muestra no es especialmente grande) y, en este caso, puede que no tengamos un fiel reflejo de la tendencia central de la distribución. La aparición de una observación extrema, hace que la media se desplace en esa dirección. ¡Ojo! su cálculo sólo tiene sentido en variables cuantitativas. Por ejemplo, la cantidad media de albúmina por litro en una muestra de seis pacientes es: (42.5+41.6+42.1+41.9+41.1+42.2) / 6 = 41.9 gr. por litro Otra medida que se utiliza mucho es la media ponderada. Por ejemplo, supongamos que un alumno ha obtenido las siguientes calificaciones en la asignatura “Bioestadística”: pruebas de clase 7.5, prácticas 5.5, Final 4.1. Si a las prácticas y a las pruebas de clase se les da un peso del 25% y al examen final del 50% ¿Cuál será la media ponderada? Media ponderada = 25 7´5 25 5´5 50 4´1 5´3 25 25 50 2. Otra medida de tendencia central que se utiliza habitualmente es la Mediana. Una vez ordenadas las observaciones de menor a mayor, la Mediana (Me) es el valor que divide a la población en dos mitades de igual frecuencia, es decir, 02. Estadística descriptiva 10 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública es el valor que deja por encima el 50 % de los datos de la muestra y por debajo el otro 50%. Si el tamaño muestral n es impar, la Me es el valor central: 1, 2, 4, 5, 6, 6, 8 Me=5 Si n es par, la mediana viene dada por la media aritmética de los dos valores centrales: 1,2,4,5,6,6,8,9 Me=(5+6)/2=5,5 En una distribución de frecuencias, la Me es el valor de la variable correspondiente a la primera frecuencia acumulada mayor que N/2. La principal ventaja de la mediana es que no se deja influir por los valores extremos (se dice que es una medida de tendencia central robusta). La Me es la medida que se debe emplear cuando en muestras pequeñas hay alguna observación extrema (outlier). Mediana de 1, 2 ,4 ,5 ,6 ,6 ,800 es 5. ¡La media es 117,7! 3. La Moda es el valor más frecuente. Llamaremos Moda a cualquier máximo relativo de la distribución de frecuencias por lo que tiene sentido calcularla para cualquier tipo de variable. Es muy fácil de calcular y puede haber más de una cómo podemos ver en la figura 2.8. Figura 2.8 En el histograma de la figura 2.9 vemos que dada la forma de la distribución, en este caso, sería más representativo usar como estadístico de tendencia central la Mediana que la Media. 02. Estadística descriptiva 11 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública Figura 2.9 2.2.2 Medidas de posición Los estadísticos de posición son valores de la variable que superan a cierto porcentaje de observaciones en la muestra. Un cuantil de orden α es el valor de la variable por debajo del cual se encuentra el α·100% de la población. Los cuantiles indican la posición relativa de una observación con respecto al resto de la muestra. Casos particulares son los percentiles, cuartiles, deciles, quintiles,... A continuación se describen los cuantiles más utilizados: Percentiles son los valores de una variable que dejan un determinado porcentaje de los datos por debajo de ellos. Percentil de orden k = cuantil de orden k/100 Por ejemplo, el percentil de orden 10 deja por debajo al 10% de las observaciones, por encima al 90% restante. El percentil de orden 15 deja por debajo al 15% de las observaciones, por encima queda el 85%. Deciles, corresponden a los percentiles 10, 20,..., 90. Los deciles se utilizan para dividir la muestra en 10 grupos de igual tamaño. Quintiles, corresponden a los percentiles 20, 40, 60 y 80, y dividen la muestra en 5 grupos de igual tamaño. Cuartiles, corresponden a los percentiles 25, 50 y 75, y dividen la muestra en 4 grupos de igual tamaño. Figura 2.10 De esta manera, tenemos las siguientes equivalencias: Primer cuartil Q1 = Percentil 25 = Cuantil 0,25 Segundo cuartil Q2 = Percentil 50 = Cuantil 0,5 = Mediana Tercer cuartil Q3 = Percentil 75 = Cuantil 0,75 02. Estadística descriptiva 12 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública 15 10 0 5 frecuencia 20 25 Percentil 5 del peso 1 2 3 4 5 Peso al nacer (Kg) de 100 niños Figura 2.11 En Pediatría se emplean los percentiles de forma habitual. Un niño que pese 12Kg. y esté en el percentil 80 de peso, nos indicará que el 80% de los niños de su edad pesan menos de 12 Kg., es decir, este niño pesaría más que el 80% de los niños de su edad. Ejemplo 2.1 Cálculo de medidas de tendencia central y posición con la variable “peso” agrupada en intervalos: Figura 2.12 Ejemplo 2.2 Tenemos recogido el “Número de años de escolarización” de una muestra de 1.508 alumnos. Veamos que nos muestra la figura 2.13. 02. Estadística descriptiva 13 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública En la tabla de frecuencias de la variable podemos adivinar los percentiles que necesitemos fijándonos en el porcentaje acumulado. De esta manera, el primer valor que deja por debajo al 20% de las observaciones (P20) corresponde a 11 años de escolarización y el primer valor que deja por debajo al 90% de las observaciones (P90) corresponde a 16 años de escolarización. Estos mismos valores son los que nos muestra el resumen de estadísticos obtenidos con SPSS. Figura 2.13 2.2.3 Medidas de dispersión Es importante completar la información proporcionada por las medidas de posición y tendencia central con alguna medida de dispersión que mida el grado de variabilidad de los datos. Algunas de las medidas de dispersión cuantifican la separación de los datos (si se alejan mucho o poco) con respecto a los valores centrales midiendo, por tanto, su representatividad. Los estadísticos de tendencia central o posición nos indican dónde se sitúa un grupo de puntuaciones. Los de variabilidad o dispersión nos indican si esas puntuaciones están próximas entre sí o si por el contrario están muy dispersas. Veamos las principales medidas de dispersión: 1. El Recorrido, Amplitud o Rango es la diferencia entre el mayor y el menor valor de la variable. Se puede ver muy afectado por valores extremos. 02. Estadística descriptiva 14 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública Es fácil de calcular y sus unidades son las mismas que las de la variable. Un valor pequeño del recorrido indica poca dispersión (la variable toma valores en un intervalo pequeño). Un valor grande del recorrido indica mucha dispersión o la existencia de valores extremos. 2. El Recorrido o Rango Intercuartílico es la diferencia entre tercer y primer cuartil (percentiles 75 y 25, respectivamente). El RI indica la amplitud del 50% central de la muestra y se usa como medida de dispersión cuando la variable presenta valores extremos. En tal caso, suele ir acompañado de la Mediana como medida de tendencia central. Recorrido intercuartílico = P75 – P25 Un valor pequeño del RI indica poca dispersión. Un valor grande del RI puede indicar mucha dispersión o la existencia de valores extremos. Como los cuartiles están poco afectados por la existencia de valores extremos, un RI pequeño frente a un Recorrido grande indicará la existencia de valores extremos. Si ambos son grandes, podemos asegurar que existe dispersión. Ejemplo 2.3. Cálculo de estadísticos en dos muestras de concentraciones de albúmina. 1ª muestra: 42.5, 41.6, 42.1, 41.9, 41.1, 42.2 Concentración de albúmina máxima observada es de 42.5 gr/l Concentración de albúmina mínima observada es de 41.1 gr/l Media = 41.9 gr/l. Recorrido = 42.5 – 41.1 = 1.4 gr/l indicando poca dispersión en los datos. RI = 42.2 - 41.6= 0.6 gr. /l, indica poca dispersión 2ª muestra: 41.1, 41.6, 49.1, 42.1, 42.2, 42.5 ¿Se podría decir ahora que todos los pacientes están sanos? La media aumenta a 43.1 gr/l, afectada por el valor máximo observado. Mediana = 42.1 gr/l, está menos afectada por los valores extremos. Recorrido = 49.1 – 41.1 = 8 gr/l, mucha dispersión o existencia de valores extremos RI = 42.5 - 41.6= 0.9 gr. /l, pequeño en comparación con el recorrido (8 gr/l) lo que indica la existencia de valores extremos 3. La varianza muestral, denotada por s2, se define como la suma de los cuadrados de las diferencias entre cada valor de la muestra y su media, dividida por el tamaño muestral n. s2 1 ( xi x ) 2 n i Cuanto más separados estén los valores de la media, mayor será su dispersión 02. Estadística descriptiva 15 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública La varianza se ve afectada por valores extremos. Sus unidades son el cuadrado de las de la variable. Para calcular la varianza se elevan al cuadrado las desviaciones de cada valor respecto de la media para evitar que se anulen unas a otras. Volviendo al ejemplo 2.3: En la 1ª muestra calculamos las distancias de las cantidades de albúmina a su media 41.9 y las sumamos: (-0.8) + (-0.3) + 0 + 0.2 + 0.3 + 0.6 = 0 Vemos que al compensarse las distancias positivas con las negativas la suma de las distancias no proporciona una buena medida de dispersión. La suma de las distancias de las observaciones a la media es siempre cero, por ello, se dice que la media es el centro de gravedad de la distribución. Elevando estas diferencias al cuadrado eliminamos el efecto del signo: (-0.8)2 + (-0.3)2 + 02 + 0.22 + 0.32 + 0.62 = 1.22 La varianza es: s2 = 1.22 / 6 = 0.203 (gr/l)2 4. La varianza muestral es difícil de interpretar como medida de dispersión, ya que sus unidades son las de la variable original al cuadrado. La medida de dispersión más utilizada es la desviación típica s o desviación estándar, que se define como la raíz cuadrada de la varianza, y en consecuencia, presenta las mismas unidades que la variable original. s s2 Al igual que la media, la desviación típica está muy afectada por valores muy extremos (gran desviación respecto de la media). Volviendo al ejemplo, la desviación típica es: s = 0.45 (gr/l) 0.01 0.01 0.02 0.02 0.03 0.03 0.04 0.04 0.05 0.05 Cierta distribución que veremos más adelante (Normal o Gaussiana) quedará completamente determinada por la media y la desviación típica. x s x 2s 95 % 0.00 0.00 68.5 % 150 160 170 180 190 150 160 170 180 Figura 2.14 Dispersión en distribuciones normales 02. Estadística descriptiva 16 - 24 190 Diplomado en Salud Pública 2. Metodología en Salud Pública Centrado en la media y a una desv. típica de distancia se encuentran aproximadamente el 68% de las observaciones. El 95% de los valores se situarán en el espacio comprendido por la media + 2 veces la desviación típica. Algunas propiedades de la varianza y la desviación típica son: Cambio de origen (traslación). Si se suma una constante a cada uno de los datos de una muestra, la varianza y la desviación típica no cambian; si yi = xi + c, entonces sy2 = sx2 y sy = sx. Cambio de escala (unidades). Si se multiplica cada uno de los datos de una muestra por una constante, la varianza resultante es igual a la varianza inicial por la constante al cuadrado y la desviación típica es igual a la desviación típica inicial por dicha constante: si yi = cxi, entonces sy2 = c2 sx2 y sy = csx. Las propiedades del cambio de origen y escala se emplean para la estandarización o tipificación de variables, que consiste en restarle a los valores de una variable su media y dividirlos por su desviación típica. La variable tipificada resultante tiene media 0 y desviación típica 1. Z X x sx La tipificación permite comparar valores procedentes de poblaciones distintas ya que están trasladados a una escala común. 5. El coeficiente de variación (adimensional) se define como el cociente entre la desviación típica y la media aritmética. CV SX x Si es menor que 1 indica que la media aritmética es representativa. Es muy útil para comparar la dispersión entre variables. Entre dos poblaciones, la población A es más homogénea (hay menos dispersión) que la población B si CVA < CVB. No confundir coeficiente de variación y tipificación: Los coeficientes de variación sirven para comparar la variabilidad de dos conjuntos de valores (muestras o poblaciones), mientras que si deseamos comparar a dos individuos de cada uno esos conjuntos, es necesario, usar los valores tipificados. Ejemplo 2.4. El peso medio de un grupo de chicas es de 52.66 kg con una desviación típica de 8.94 kg. El de los chicos es de 56.91 kg con una desviación típica de 11.91 kg. Para comparar la dispersión entre las dos poblaciones calculamos el CV: 02. Estadística descriptiva 17 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública CV chicos = 11.91 / 56.91 = 0.209 CV chicas = 8.94 / 52.66 = 0.170 Hay mayor dispersión, la media es menos representativa, en el peso de los chicos que en el de las chicas. Figura 2.15 Histogramas de la variable peso en los dos grupos Figura 2.16 Diagramas de caja que nos permiten comparar la dispersión de la variable peso en ambos grupos Diagrama de caja (Box-plot) El diagrama de caja permite evaluar la tendencia central, la dispersión y la simetría de la distribución de una variable, así como identificar valores extremos. Además, nos permite comparar gráficamente el comportamiento de una variable en distintos grupos. Es un gráfico muy útil en la primera fase de depuración de una base de datos, cuando queremos comprobar la calidad de los datos que hemos recogido antes de someterlos a un análisis estadístico detallado. 02. Estadística descriptiva 18 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública Figura 2.17 Los límites inferior y superior de la caja corresponden a los percentiles 25 y 75; es consecuencia, la altura de la caja representa el rango intercuartílico e indica la dispersión de la muestra. La línea horizontal dentro de la caja corresponde a la mediana y representa la tendencia central de la muestra. El gráfico se completa con barras verticales a ambos lados de la caja de longitud 1,5 veces el rango intercuartílico. Los valores atípicos, aquellos distanciados de los límites de la caja entre 1,5 y 3 veces el rango intercuartílico, se representan con un círculo y los valores muy extremos, aquellos alejados de la caja más de 3 veces el rango intercuartílico, se denotan mediante un asterisco. 2.2.4 Medidas de forma Las medidas de forma nos permiten conocer la forma de la distribución de frecuencias cuando la representamos mediante un gráfico. Queremos saber si los datos se distribuyen de forma simétrica con respecto a un valor central, o si bien la gráfica que representa la distribución de frecuencias es de una forma diferente del lado derecho que del lado izquierdo. Si la simetría ha sido determinada, podemos preguntarnos si la curva es más o menos apuntada (larga y estrecha). Este apuntamiento habrá que medirlo comparado a cierta distribución de frecuencias que consideramos normal. De esta manera distinguimos entre: Medidas de ASIMETRÍA: cuantifican si existe algún desequilibrio en una de las colas de la distribución que puedan distorsionar los resultados obtenidos al extraer información. 02. Estadística descriptiva 19 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública Medidas de CURTOSIS: cuantifican el perfil más o menos puntiagudo de la distribución (miden el grado en que las observaciones están agrupadas en torno al punto central). 1. Para saber si una distribución de frecuencias es simétrica, hay que precisar con respecto a qué. Un candidato es la mediana, ya que para variables continuas, divide al histograma de frecuencias en dos partes iguales. Figura 2.18 Podemos basarnos en la Mediana para decir que una distribución de frecuencias es simétrica si el lado derecho de la gráfica es la imagen especular del lado izquierdo (figura 2.18). Cuando la variable es discreta, decimos que es simétrica, si lo es con respecto a la media. Como es de esperar en las distribuciones simétricas media y mediana coinciden; si sólo hay una moda también coincide. Dentro de los tipos de asimetría posible, vamos a destacar los dos fundamentales: Asimetría positiva: Si las frecuencias más altas se encuentran en el lado izquierdo de la media, mientras que en derecho hay frecuencias más pequeñas. La cola de la derecha es más prolongada. Asimetría negativa: Cuando la cola está en el lado izquierdo. Aun observando cuidadosamente la gráfica, podemos no ver claro de qué lado están las frecuencias más altas. Para ello nos ayudamos de los denominados índices de asimetría. Una forma de medir la asimetría es mediante el coeficiente de asimetría de Fisher CA. En función del signo de este coeficiente diremos que la asimetría es positiva (CA>0), negativa (CA<0) o que la distribución es simétrica (CA=0). 02. Estadística descriptiva 20 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública Figura 2.19 En los diagramas de caja, si la distribución es simétrica, los límites superior e inferior de la caja estarán aproximadamente a la misma distancia de la mediana, mientras que si la distribución es asimétrica positiva, el límite superior estará más alejado de la mediana que el inferior y si la distribución es asimétrica negativa, el límite inferior estará más alejado de la mediana que el superior (figura 2.19). 2. El apuntamiento o curtosis es el grado de aplastamiento de una curva. Para decir si la distribución es larga y estrecha, hay que tener un patrón de referencia. Dicho patrón es la distribución normal o gaussiana. El coeficiente de curtosis de Fisher CK (adimensional) nos indica el grado de apuntamiento (altura) de una distribución con respecto a la curva normal. En función de su signo tendremos una distribución: Platicúrtica (si es más aplanada que la normal): CK < 0 Mesocúrtica (si es como la normal): CK = 0 Leptocúrtica (si es más apuntada que la normal): CK > 0 Apuntada Apuntada como la normal 0.4 0.2 0.5 0.1 1.0 0.2 0.6 1.5 0.3 0.8 2.0 Aplanada x s x s x s 68 % 0.0 82 % 0.0 0.0 57 % 0.0 0.2 0.4 0.6 0.8 1.0 -3 -2 -1 0 1 2 3 -2 -1 0 1 2 Figura 2.20 02. Estadística descriptiva 21 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública Ejemplo 2.5: Vemos que en el resumen de descriptivos de SPSS (tabla 2.8) obtenemos los coeficientes de asimetría y curtosis. Podemos ver que la variable “cantidad de grasa en el subescapular” es claramente asimétrica positiva (fijándonos tanto en la forma de la distribución, figura 2.21, como en el coeficiente de asimetría 1,837 > 0) y leptocúrtica (K=3,754). Figura 2.21 Histogramas con curva normal en SPSS Estadí sticos N Válidos Perdidos Media Mediana Des v . tí p. Varianza Asimetrí a Error t íp. de asimetría Curtos is Error t íp. de curt osis Cantidad de grasa en el subescapular 1501 0 11, 4470 9, 6000 5, 99136 35, 896 1, 837 ,063 3, 754 ,126 Cantidad de grasa en el tríceps 1501 0 17, 6963 17, 2000 7, 50735 56, 360 ,520 ,063 -, 203 ,126 Tabla 2.8 Resumen de estadísticos con SPSS Para obtener las medidas de tendencia central, posición, dispersión y forma con SPSS, podemos seleccionar el botón ESTADÍSTICOS (figura 2.22) dentro de la opción Analizar / Estadísticos descriptivos / FRECUENCIAS. 02. Estadística descriptiva 22 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública Figura 2.22 Otra opción es mediante Analizar / Estadísticos descriptivos / EXPLORAR (figura 2.23) que permite obtener medidas de posición, dispersión y forma para todos los individuos de la población, o bien, de forma separada, para grupos de individuos; estudiar e identificar los valores extremos de la distribución; y, representar gráficamente las variables mediante diagramas de caja e histogramas. Variable cuantitativa objeto de estudio Variable que crea los distintos grupos Variable que sirve para etiquetar casos atípicos Figura 2.23 02. Estadística descriptiva 23 - 24 Diplomado en Salud Pública 2. Metodología en Salud Pública Descriptivos Tiempo de superv iv encia en días desde el momento del diagnóstico Sexo del paciente Hombre Mujer Media Interv alo de conf ianza para la media al 95% Media recortada al 5% Mediana Varianza Desv . t íp. Mínimo Máximo Rango Amplitud intercuart il Asimetría Curtosis Media Interv alo de conf ianza para la media al 95% Media recortada al 5% Mediana Varianza Desv . t íp. Mínimo Máximo Rango Amplitud intercuart il Asimetría Curtosis Límite inf erior Límite superior Límite inf erior Límite superior Estadí stico 540,7919 474,9924 Error típ. 33,29729 606,5915 508,2453 413,0000 165197,747 406,44526 11,0 1823 1812,00 540,00 1,147 ,753 616,8261 481,3863 ,199 ,395 67,24569 752,2659 596,2415 487,5000 208011,214 456,08246 11,0 1574 1563,00 558,25 ,826 -,413 ,350 ,688 Tabla 2.9 Resumen de estadísticos por grupos con SPSS 02. Estadística descriptiva 24 - 24