2. Estadística descriptiva

Anuncio
Diplomado en Salud Pública
2. Metodología en Salud Pública
ESTADÍSTICA DESCRIPTIVA
Autor: Clara Laguna
En el capítulo anterior vimos que la Estadística es la Ciencia de la:

Sistematización, recogida,

ordenación y posterior presentación de los datos referentes a un fenómeno o
hecho social para su estudio metódico, con objeto de DESCRIPTIVA

deducir las leyes que rigen esos fenómenos,

y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u
obtener conclusiones
INFERENCIA
MUESTREO
PROBABILIDAD
Una vez que se han recogido los valores que toman las variables objeto de estudio, se
procede al análisis descriptivo de los mismos.
2.1 REPRESENTACIÓN DE VARIABLES ESTADÍSTICAS
Las tablas de frecuencia y las representaciones gráficas son dos maneras
equivalentes de presentar la información. Las dos exponen ordenadamente la
información recogida en una muestra.
Aquí tenéis un esquema de los tipos de gráficos y las medidas estadísticas que
podemos calcular dependiendo de la/s variables con la/s que estemos trabajando:
 Variables CUALITATIVAS:
Representaciones gráficas:
 Diagramas de Sectores
 Diagramas de Barras
Medidas numéricas
 Cuantiles (var. Ordinal)
 Variables CUANTITATIVAS:
Representaciones gráficas:
 Diagramas de Barras (var. Discretas)
 Histograma (var. Continuas)
 Diagrama de caja (box-plot)
Medidas numéricas
 Medidas de posición
 Medidas de dispersión
 Medidas de forma
02. Estadística descriptiva
1 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
2.1.1 Tablas estadísticas
Una distribución o tabla de frecuencias es una ordenación en formato tabular en la
que se organizan los datos que hemos recogido en la muestra, asignando a cada uno
de ellos el número de observaciones correspondiente.
Si consideramos una población estadística con n individuos podemos obtener las
siguientes magnitudes:
Frecuencia absoluta (ni) es el número de individuos que presenta cada valor de la
variable. Número de veces que se repite un determinado valor (í-esimo) de la variable.
La suma de las frecuencias absolutas es igual al número total de observaciones, n.
Frecuencia absoluta acumulada (Ni) es la suma de las frecuencias absolutas de
todos los valores inferiores o iguales al valor considerado. Se interpreta como el
número de observaciones menores o iguales a un determinado valor de la variable. Se
calcula en variables cuantitativas y cualitativas ordinales.
i
N i  n1  n2  ...  ni   n j
j 1
Frecuencia relativa (fi) es el cociente entre la frecuencia absoluta de un determinado
valor y el número total de observaciones. La frecuencia relativa es la proporción de
veces que se repite un determinado valor.
fi =
ni
n
Obsérvese que fi es el tanto por uno de observaciones de cada valor. Multiplicado por
100% representa el porcentaje de la población.
Frecuencia relativa acumulada (Fi) es el número de observaciones menores o
iguales al í-esimo valor de la variable pero en forma relativa. Se calcula en variables
cuantitativas y cualitativas ordinales. Muy útiles para calcular cuantiles.
Fi 
i
N i n1  ...  ni

 f1  ...  f i   f j
n
n
j 1
Tabla de frecuencia de datos no agrupados
Los datos no agrupados son las observaciones realizadas en un estudio estadístico
que se presentan en su forma original tal y como fueron recogidos, para obtener
información directamente de ellos.
La tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen
los datos estadísticos sin que se haya hecho ninguna modificación al tamaño de las
unidades originales.
02. Estadística descriptiva
2 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
Se emplean si las variables toman un número pequeño de valores o la variable es
discreta.
Nota media
ni
Ni
fi
Fi
xi
1
2
3
4
5
6
7
8
9
10
TOTAL
1
2
5
9
14
23
20
15
8
3
1
3
8
17
31
54
74
89
97
100
n=100
0,01
0,02
0,05
0,09
0,14
0,23
0,2
0,15
0,08
0,03
1
0,01
0,03
0,08
0,17
0,31
0,54
0,74
0,89
0,97
1
Tabla 2.1 Distribución de la nota media final de curso de 100 alumnos
Tabla de frecuencia de datos agrupados
Es aquella distribución en la que los valores de las variables se encuentran agrupados
en intervalos o clases. A cada clase se le asigna su frecuencia correspondiente.
Se emplean generalmente si las variables toman un número grande de valores o la
variable es continua.
Cada clase está delimitada por el límite inferior y superior. Los intervalos se forman
teniendo presente que el límite inferior de una clase pertenece al intervalo, pero el
límite superior se cuenta en el siguiente intervalo [L0, L1). No existe una regla fija de
cuantos son los intervalos que se deben hacer; hay diferentes criterios, la literatura
especializada recomienda considerar entre 5 y 20 intervalos.
Cuando trabajemos con estas tablas utilizaremos la marca de clase (xi), punto medio
de cada intervalo, para el cálculo de las diferentes medidas estadísticas.
Variable
ni
Ni
L0 – L1
x1
n1
N1
L1 – L2
x2
n2
N2
xk
nk
Nk
...
Lk-1 – Lk
n
Tabla 2.2 Datos agrupados en intervalos
02. Estadística descriptiva
3 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
Intervalo
Marca
clase xi
[35,65)
[65,95)
[95,125)
[125,155)
[155,185)
[185,215)
TOTAL
ni
50
80
110
140
170
200
Ni
9
7
6
1
1
1
n=25
fi
9
16
22
23
24
25
Fi
0,36
0,28
0,24
0,04
0,04
0,04
1
0,36
0,64
0,88
0,92
0,96
1
Tabla 2.3 Distribución del peso en Kilogramos de una muestra de 25 personas
Para obtener la distribución de frecuencias, las medidas descriptivas de los
datos y las representaciones gráficas con SPSS, se selecciona la opción
Analizar / Estadísticos descriptivos / Frecuencias.
Figura 2.1
Figura 2.2
02. Estadística descriptiva
4 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
Tabla 2.4 Tabla de frecuencias SPSS variable cualitativa
Tabla 2.5 Tabla de frecuencias SPSS variable cualitativa
Tabla 2.6 Tabla de frecuencias SPSS variable cuantitativa agrupada en intervalos
Tabla 2.7 Tabla de frecuencias SPSS variable cuantitativa discreta
02. Estadística descriptiva
5 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
Como podemos ver en las tablas de frecuencias anteriores, con SPSS obtenemos la
frecuencia absoluta (Frecuencia), la frecuencia relativa (Porcentaje) y la frecuencia
relativa acumulada (Porcentaje acumulado). Además el Porcentaje válido que
muestra la frecuencia relativa, expresada en tanto por cien, eliminando los casos con
valores perdidos.
2.1.2 Representaciones gráficas
Las representaciones gráficas son muy importantes en epidemiología y estadística,
especialmente para propósitos descriptivos, ya que consiguen transmitir las
características de la población de un solo vistazo.
En el análisis e interpretación de los datos de un estudio, es importante no limitarse a
realizar medidas de resumen numéricas. Las medidas de tendencia central y
dispersión deben completarse con gráficos que permitan observar directamente las
características y relaciones de las variables estudiadas. En este apartado vamos a
explicar los principales métodos gráficos para presentar y resumir una variable aunque
conforme vayamos desarrollando los diferentes temas iremos revisando el resto de
gráficos.
Los diagramas de barras son adecuados para representar variables cualitativas y
cuantitativas discretas. En estos diagramas se representan las categorías de la
variable en el eje horizontal y sus frecuencias (absolutas o relativas) en el eje vertical.
Para cada categoría de la variable se construye un rectángulo de anchura constante y
altura proporcional a la frecuencia. Los rectángulos están separados unos de otros por
la misma distancia para reflejar la discontinuidad de la variable.
02. Estadística descriptiva
6 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
100
Frecuencia
80
60
40
20
0
2 cm o menos
2-4 cm
> 4 cm
Invasivo
Estado del tumor
Figura 2.3 Diagramas de barras en SPSS para variables cualitativas
Los gráficos de sectores son adecuados para representar variables cualitativas que
siguen una escala estrictamente nominal. En estos gráficos se divide un círculo en
tantas porciones como categorías tenga la variable, de modo que a cada categoría le
corresponde un sector de círculo proporcional a su frecuencia absoluta o relativa.
Figura 2.4 Gráfico de sectores en SPSS para la variable cualitativa Sexo del paciente
El Histograma es el principal método gráfico para la representación de variables
cuantitativas continuas. En primer lugar, los valores de la variable continua se agrupan
en categorías exhaustivas (cubren todo el rango de la variable) y mutuamente
excluyentes (no se solapan). En el eje horizontal del histograma se representan las
categorías o intervalos y en el eje vertical las frecuencias (absolutas o relativas) de
cada intervalo. Posteriormente, se construye un rectángulo para cada categoría, cuya
anchura es igual a la longitud del intervalo y cuyo área es proporcional a la frecuencia
(si los intervalos tienen distinta longitud, las alturas de los rectángulos del histograma
no serán proporcionales a las frecuencias). El polígono de frecuencias se construye
uniendo con líneas rectas los puntos medios de las bases superiores de los
rectángulos que conforman un histograma.
02. Estadística descriptiva
7 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
Figura 2.5 Histograma en SPSS para la variable cuantitativa Peso
Para realizar los gráficos que acabamos de ver en SPSS utilizamos el botón Gráficos
de la opción Frecuencias (figura 2.6):
Figura 2.6
02. Estadística descriptiva
8 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
2.2 MEDIDAS DESCRIPTIVAS
Hemos visto cómo se pueden resumir los datos obtenidos del estudio de una muestra
(o una población) en una tabla estadística o un gráfico. No obstante, tras la
elaboración de la tabla y su representación gráfica, en la mayoría de las ocasiones
resulta más eficaz “condensar” dicha información en algunas medidas (estadísticos o
parámetros) que la expresen de forma clara y concisa.
Es decir, dado un grupo de datos organizados en una distribución de frecuencias (o
bien una serie de observaciones sin ordenar), pretendemos describirlos mediante dos
o tres medidas sintéticas.
En este sentido pueden examinarse varias características, siendo las más comunes:





La tendencia central de los datos
La dispersión o variación con respecto a este centro
Los datos que ocupan ciertas posiciones
La simetría de los datos
La forma en la que los datos se agrupan
Siguiendo este orden, iremos estudiando los estadísticos que nos van a orientar sobre
cada uno de estos niveles de información: valores alrededor de los cuales se agrupa la
muestra, la mayor o menor fluctuación alrededor de esos valores, nos interesaremos
en ciertos valores que marcan posiciones características de una distribución de
frecuencias así como su simetría y su forma.
Figura 2.7 Medidas representativas de un conjunto de datos estadísticos
 Medidas de tendencia central o de posición: Indican valores con
respecto a los que los datos parecen agruparse.
 Medidas de dispersión: Indican la mayor o menor concentración de los
datos con respecto a las medidas de posición.
02. Estadística descriptiva
9 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
 Medidas de forma: Estudian la simetría y el apuntamiento de la
distribución en comparación con la curva normal.
2.2.1 Medidas de tendencia central
Las medidas de tendencia central informan acerca de cuál es el valor más
representativo de una determinada variable o, dicho de otra forma, responden a la
siguiente pregunta: ¿alrededor de qué valor se agrupan los datos observados?.
Son el elemento fundamental de cualquier estadística descriptiva.
1. La primera y principal es la MEDIA aritmética, x .Se define como la suma de
todos los valores (xi) dividido por el número total de observaciones (n).
Corresponde al “centro de gravedad” de los datos de la muestra.
Para datos sin agrupar:
x =
x    xn
1 n
xi  1

n i 1
n
Para datos agrupados en intervalos (tabla 2.2):
x
 xn
i
i i
n
Su principal inconveniente es que es muy sensible a los valores extremos
(sobre todo si la muestra no es especialmente grande) y, en este caso, puede
que no tengamos un fiel reflejo de la tendencia central de la distribución. La
aparición de una observación extrema, hace que la media se desplace en esa
dirección.
¡Ojo! su cálculo sólo tiene sentido en variables cuantitativas.
Por ejemplo, la cantidad media de albúmina por litro en una muestra de seis
pacientes es:
(42.5+41.6+42.1+41.9+41.1+42.2) / 6 = 41.9 gr. por litro
 Otra medida que se utiliza mucho es la media ponderada.
Por ejemplo, supongamos que un alumno ha obtenido las siguientes
calificaciones en la asignatura “Bioestadística”: pruebas de clase 7.5, prácticas
5.5, Final 4.1. Si a las prácticas y a las pruebas de clase se les da un peso del
25% y al examen final del 50% ¿Cuál será la media ponderada?
Media ponderada =
25  7´5  25  5´5  50  4´1
 5´3
25  25  50
2. Otra medida de tendencia central que se utiliza habitualmente es la Mediana.
Una vez ordenadas las observaciones de menor a mayor, la Mediana (Me) es
el valor que divide a la población en dos mitades de igual frecuencia, es decir,
02. Estadística descriptiva
10 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
es el valor que deja por encima el 50 % de los datos de la muestra y por debajo
el otro 50%.

Si el tamaño muestral n es impar, la Me es el valor central:
1, 2, 4, 5, 6, 6, 8 Me=5

Si n es par, la mediana viene dada por la media aritmética de los dos
valores centrales: 1,2,4,5,6,6,8,9 Me=(5+6)/2=5,5

En una distribución de frecuencias, la Me es el valor de la variable
correspondiente a la primera frecuencia acumulada mayor que N/2.
La principal ventaja de la mediana es que no se deja influir por los valores
extremos (se dice que es una medida de tendencia central robusta). La Me
es la medida que se debe emplear cuando en muestras pequeñas hay
alguna observación extrema (outlier).
Mediana de 1, 2 ,4 ,5 ,6 ,6 ,800 es 5. ¡La media es 117,7!
3. La Moda es el valor más frecuente.
Llamaremos Moda a cualquier máximo relativo de la distribución de frecuencias
por lo que tiene sentido calcularla para cualquier tipo de variable.
Es muy fácil de calcular y puede haber más de una cómo podemos ver en la
figura 2.8.
Figura 2.8
En el histograma de la figura 2.9 vemos que dada la forma de la distribución, en
este caso, sería más representativo usar como estadístico de tendencia central la
Mediana que la Media.
02. Estadística descriptiva
11 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
Figura 2.9
2.2.2 Medidas de posición
Los estadísticos de posición son valores de la variable que superan a cierto porcentaje
de observaciones en la muestra.
Un cuantil de orden α es el valor de la variable por debajo del cual se encuentra el
α·100% de la población. Los cuantiles indican la posición relativa de una observación
con respecto al resto de la muestra.
Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
A continuación se describen los cuantiles más utilizados:

Percentiles son los valores de una variable que dejan un determinado
porcentaje de los datos por debajo de ellos.
Percentil de orden k = cuantil de orden k/100
Por ejemplo, el percentil de orden 10 deja por debajo al 10% de las
observaciones, por encima al 90% restante. El percentil de orden 15 deja
por debajo al 15% de las observaciones, por encima queda el 85%.

Deciles, corresponden a los percentiles 10, 20,..., 90. Los deciles se utilizan
para dividir la muestra en 10 grupos de igual tamaño.

Quintiles, corresponden a los percentiles 20, 40, 60 y 80, y dividen la muestra
en 5 grupos de igual tamaño.

Cuartiles, corresponden a los percentiles 25, 50 y 75, y dividen la muestra en 4
grupos de igual tamaño.
Figura 2.10
De esta manera, tenemos las siguientes equivalencias:
Primer cuartil Q1 = Percentil 25 = Cuantil 0,25
Segundo cuartil Q2 = Percentil 50 = Cuantil 0,5 = Mediana
Tercer cuartil Q3 = Percentil 75 = Cuantil 0,75
02. Estadística descriptiva
12 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
15
10
0
5
frecuencia
20
25
Percentil 5 del peso
1
2
3
4
5
Peso al nacer (Kg) de 100 niños
Figura 2.11
En Pediatría se emplean los percentiles de forma habitual. Un niño que pese 12Kg.
y esté en el percentil 80 de peso, nos indicará que el 80% de los niños de su edad
pesan menos de 12 Kg., es decir, este niño pesaría más que el 80% de los niños
de su edad.
Ejemplo 2.1
Cálculo de medidas de tendencia central y posición con la variable “peso”
agrupada en intervalos:
Figura 2.12
Ejemplo 2.2
Tenemos recogido el “Número de años de escolarización” de una muestra de
1.508 alumnos. Veamos que nos muestra la figura 2.13.
02. Estadística descriptiva
13 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
En la tabla de frecuencias de la variable podemos adivinar los percentiles que
necesitemos fijándonos en el porcentaje acumulado. De esta manera, el primer
valor que deja por debajo al 20% de las observaciones (P20) corresponde a 11
años de escolarización y el primer valor que deja por debajo al 90% de las
observaciones (P90) corresponde a 16 años de escolarización. Estos mismos
valores son los que nos muestra el resumen de estadísticos obtenidos con SPSS.
Figura 2.13
2.2.3 Medidas de dispersión
Es importante completar la información proporcionada por las medidas de posición y
tendencia central con alguna medida de dispersión que mida el grado de variabilidad
de los datos.
Algunas de las medidas de dispersión cuantifican la separación de los datos (si se
alejan mucho o poco) con respecto a los valores centrales midiendo, por tanto, su
representatividad.
Los estadísticos de tendencia central o posición nos indican dónde se sitúa un grupo
de puntuaciones. Los de variabilidad o dispersión nos indican si esas puntuaciones
están próximas entre sí o si por el contrario están muy dispersas.
Veamos las principales medidas de dispersión:
1. El Recorrido, Amplitud o Rango es la diferencia entre el mayor y el menor
valor de la variable.

Se puede ver muy afectado por valores extremos.
02. Estadística descriptiva
14 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública



Es fácil de calcular y sus unidades son las mismas que las de la
variable.
Un valor pequeño del recorrido indica poca dispersión (la variable toma
valores en un intervalo pequeño).
Un valor grande del recorrido indica mucha dispersión o la existencia de
valores extremos.
2. El Recorrido o Rango Intercuartílico es la diferencia entre tercer y primer
cuartil (percentiles 75 y 25, respectivamente). El RI indica la amplitud del 50%
central de la muestra y se usa como medida de dispersión cuando la variable
presenta valores extremos. En tal caso, suele ir acompañado de la Mediana
como medida de tendencia central.
Recorrido intercuartílico = P75 – P25



Un valor pequeño del RI indica poca dispersión.
Un valor grande del RI puede indicar mucha dispersión o la existencia de
valores extremos.
Como los cuartiles están poco afectados por la existencia de valores
extremos, un RI pequeño frente a un Recorrido grande indicará la
existencia de valores extremos. Si ambos son grandes, podemos asegurar
que existe dispersión.
Ejemplo 2.3.
Cálculo de estadísticos en dos muestras de concentraciones de albúmina.

1ª muestra: 42.5, 41.6, 42.1, 41.9, 41.1, 42.2
Concentración de albúmina máxima observada es de 42.5 gr/l
Concentración de albúmina mínima observada es de 41.1 gr/l
Media = 41.9 gr/l.
Recorrido = 42.5 – 41.1 = 1.4 gr/l indicando poca dispersión en los datos.
RI = 42.2 - 41.6= 0.6 gr. /l, indica poca dispersión
 2ª muestra: 41.1, 41.6, 49.1, 42.1, 42.2, 42.5
¿Se podría decir ahora que todos los pacientes están sanos?
La media aumenta a 43.1 gr/l, afectada por el valor máximo observado.
Mediana = 42.1 gr/l, está menos afectada por los valores extremos.
Recorrido = 49.1 – 41.1 = 8 gr/l, mucha dispersión o existencia de valores
extremos
RI = 42.5 - 41.6= 0.9 gr. /l, pequeño en comparación con el recorrido (8 gr/l) lo
que indica la existencia de valores extremos
3. La varianza muestral, denotada por s2, se define como la suma de los
cuadrados de las diferencias entre cada valor de la muestra y su media,
dividida por el tamaño muestral n.
s2 
1
 ( xi  x ) 2
n i
Cuanto más separados estén los valores de la media, mayor será su dispersión
02. Estadística descriptiva
15 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública


La varianza se ve afectada por valores extremos.
Sus unidades son el cuadrado de las de la variable.
Para calcular la varianza se elevan al cuadrado las desviaciones de cada valor
respecto de la media para evitar que se anulen unas a otras.
Volviendo al ejemplo 2.3:
En la 1ª muestra calculamos las distancias de las cantidades de albúmina a su
media 41.9 y las sumamos:
(-0.8) + (-0.3) + 0 + 0.2 + 0.3 + 0.6 = 0
Vemos que al compensarse las distancias positivas con las negativas la suma de
las distancias no proporciona una buena medida de dispersión.
La suma de las distancias de las observaciones a la media es siempre cero, por
ello, se dice que la media es el centro de gravedad de la distribución.
Elevando estas diferencias al cuadrado eliminamos el efecto del signo:
(-0.8)2 + (-0.3)2 + 02 + 0.22 + 0.32 + 0.62 = 1.22
La varianza es: s2 = 1.22 / 6 = 0.203 (gr/l)2
4. La varianza muestral es difícil de interpretar como medida de dispersión, ya
que sus unidades son las de la variable original al cuadrado. La medida de
dispersión más utilizada es la desviación típica s o desviación estándar, que
se define como la raíz cuadrada de la varianza, y en consecuencia, presenta
las mismas unidades que la variable original.
s  s2
Al igual que la media, la desviación típica está muy afectada por valores muy
extremos (gran desviación respecto de la media).
Volviendo al ejemplo, la desviación típica es: s = 0.45 (gr/l)
0.01
0.01
0.02
0.02
0.03
0.03
0.04
0.04
0.05
0.05
Cierta distribución que veremos más adelante (Normal o Gaussiana) quedará
completamente determinada por la media y la desviación típica.
x s
x 2s
95 %
0.00
0.00
68.5 %
150
160
170
180
190
150
160
170
180
Figura 2.14 Dispersión en distribuciones normales
02. Estadística descriptiva
16 - 24
190
Diplomado en Salud Pública
2. Metodología en Salud Pública

Centrado en la media y a una desv. típica de distancia se encuentran
aproximadamente el 68% de las observaciones.

El 95% de los valores se situarán en el espacio comprendido por la media
+ 2 veces la desviación típica.
Algunas propiedades de la varianza y la desviación típica son:

Cambio de origen (traslación). Si se suma una constante a cada uno de los
datos de una muestra, la varianza y la desviación típica no cambian; si yi =
xi + c, entonces sy2 = sx2 y sy = sx.

Cambio de escala (unidades). Si se multiplica cada uno de los datos de una
muestra por una constante, la varianza resultante es igual a la varianza
inicial por la constante al cuadrado y la desviación típica es igual a la
desviación típica inicial por dicha constante: si yi = cxi, entonces sy2 = c2 sx2
y sy = csx.
Las propiedades del cambio de origen y escala se emplean para la
estandarización o tipificación de variables, que consiste en restarle a los
valores de una variable su media y dividirlos por su desviación típica. La variable
tipificada resultante tiene media 0 y desviación típica 1.
Z
X x
sx
La tipificación permite comparar valores procedentes de poblaciones distintas ya
que están trasladados a una escala común.
5. El coeficiente de variación (adimensional) se define como el cociente entre la
desviación típica y la media aritmética.
CV 



SX
x
Si es menor que 1 indica que la media aritmética es representativa.
Es muy útil para comparar la dispersión entre variables.
Entre dos poblaciones, la población A es más homogénea (hay menos
dispersión) que la población B si CVA < CVB.
No confundir coeficiente de variación y tipificación: Los coeficientes de variación
sirven para comparar la variabilidad de dos conjuntos de valores (muestras o
poblaciones), mientras que si deseamos comparar a dos individuos de cada uno
esos conjuntos, es necesario, usar los valores tipificados.
Ejemplo 2.4.
El peso medio de un grupo de chicas es de 52.66 kg con una desviación típica de
8.94 kg. El de los chicos es de 56.91 kg con una desviación típica de 11.91 kg.
Para comparar la dispersión entre las dos poblaciones calculamos el CV:
02. Estadística descriptiva
17 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
CV chicos = 11.91 / 56.91 = 0.209
CV chicas = 8.94 / 52.66 = 0.170
Hay mayor dispersión, la media es menos representativa, en el peso de los chicos
que en el de las chicas.
Figura 2.15 Histogramas de la variable peso en los dos grupos
Figura 2.16 Diagramas de caja que nos permiten comparar la dispersión de la variable
peso en ambos grupos
Diagrama de caja (Box-plot)
El diagrama de caja permite evaluar la tendencia central, la dispersión y la simetría
de la distribución de una variable, así como identificar valores extremos. Además,
nos permite comparar gráficamente el comportamiento de una variable en distintos
grupos. Es un gráfico muy útil en la primera fase de depuración de una base de
datos, cuando queremos comprobar la calidad de los datos que hemos recogido
antes de someterlos a un análisis estadístico detallado.
02. Estadística descriptiva
18 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
Figura 2.17
Los límites inferior y superior de la caja corresponden a los percentiles 25 y 75; es
consecuencia, la altura de la caja representa el rango intercuartílico e indica la
dispersión de la muestra. La línea horizontal dentro de la caja corresponde a la
mediana y representa la tendencia central de la muestra. El gráfico se completa
con barras verticales a ambos lados de la caja de longitud 1,5 veces el rango
intercuartílico.
Los valores atípicos, aquellos distanciados de los límites de la caja entre 1,5 y 3
veces el rango intercuartílico, se representan con un círculo y los valores muy
extremos, aquellos alejados de la caja más de 3 veces el rango intercuartílico, se
denotan mediante un asterisco.
2.2.4 Medidas de forma
Las medidas de forma nos permiten conocer la forma de la distribución de frecuencias
cuando la representamos mediante un gráfico. Queremos saber si los datos se
distribuyen de forma simétrica con respecto a un valor central, o si bien la gráfica que
representa la distribución de frecuencias es de una forma diferente del lado derecho
que del lado izquierdo.
Si la simetría ha sido determinada, podemos preguntarnos si la curva es más o menos
apuntada (larga y estrecha). Este apuntamiento habrá que medirlo comparado a cierta
distribución de frecuencias que consideramos normal.
De esta manera distinguimos entre:
 Medidas de ASIMETRÍA: cuantifican si existe algún desequilibrio en una
de las colas de la distribución que puedan distorsionar los resultados
obtenidos al extraer información.
02. Estadística descriptiva
19 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
 Medidas de CURTOSIS: cuantifican el perfil más o menos puntiagudo
de la distribución (miden el grado en que las observaciones están
agrupadas en torno al punto central).
1. Para saber si una distribución de frecuencias es simétrica, hay que precisar
con respecto a qué. Un candidato es la mediana, ya que para variables
continuas, divide al histograma de frecuencias en dos partes iguales.
Figura 2.18
Podemos basarnos en la Mediana para decir que una distribución de
frecuencias es simétrica si el lado derecho de la gráfica es la imagen especular
del lado izquierdo (figura 2.18).
Cuando la variable es discreta, decimos que es simétrica, si lo es con respecto
a la media.
Como es de esperar en las distribuciones simétricas media y mediana
coinciden; si sólo hay una moda también coincide.
Dentro de los tipos de asimetría posible, vamos a destacar los dos
fundamentales:

Asimetría positiva: Si las frecuencias más altas se encuentran en el lado
izquierdo de la media, mientras que en derecho hay frecuencias más
pequeñas. La cola de la derecha es más prolongada.

Asimetría negativa: Cuando la cola está en el lado izquierdo.
Aun observando cuidadosamente la gráfica, podemos no ver claro de qué lado
están las frecuencias más altas. Para ello nos ayudamos de los denominados
índices de asimetría.
Una forma de medir la asimetría es mediante el coeficiente de asimetría de
Fisher CA. En función del signo de este coeficiente diremos que la asimetría
es positiva (CA>0), negativa (CA<0) o que la distribución es simétrica (CA=0).
02. Estadística descriptiva
20 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
Figura 2.19
En los diagramas de caja, si la distribución es simétrica, los límites superior e
inferior de la caja estarán aproximadamente a la misma distancia de la mediana,
mientras que si la distribución es asimétrica positiva, el límite superior estará más
alejado de la mediana que el inferior y si la distribución es asimétrica negativa, el
límite inferior estará más alejado de la mediana que el superior (figura 2.19).
2. El apuntamiento o curtosis es el grado de aplastamiento de una curva.
Para decir si la distribución es larga y estrecha, hay que tener un patrón de
referencia. Dicho patrón es la distribución normal o gaussiana.
El coeficiente de curtosis de Fisher CK (adimensional) nos indica el grado de
apuntamiento (altura) de una distribución con respecto a la curva normal. En
función de su signo tendremos una distribución:



Platicúrtica (si es más aplanada que la normal): CK < 0
Mesocúrtica (si es como la normal): CK = 0
Leptocúrtica (si es más apuntada que la normal): CK > 0
Apuntada
Apuntada como la normal
0.4
0.2
0.5
0.1
1.0
0.2
0.6
1.5
0.3
0.8
2.0
Aplanada
x s
x s
x s
68 %
0.0
82 %
0.0
0.0
57 %
0.0
0.2
0.4
0.6
0.8
1.0
-3
-2
-1
0
1
2
3
-2
-1
0
1
2
Figura 2.20
02. Estadística descriptiva
21 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
Ejemplo 2.5:
Vemos que en el resumen de descriptivos de SPSS (tabla 2.8) obtenemos los
coeficientes de asimetría y curtosis.
Podemos ver que la variable “cantidad de grasa en el subescapular” es claramente
asimétrica positiva (fijándonos tanto en la forma de la distribución, figura 2.21, como en
el coeficiente de asimetría 1,837 > 0) y leptocúrtica (K=3,754).
Figura 2.21 Histogramas con curva normal en SPSS
Estadí sticos
N
Válidos
Perdidos
Media
Mediana
Des v . tí p.
Varianza
Asimetrí a
Error t íp. de asimetría
Curtos is
Error t íp. de curt osis
Cantidad de
grasa en el
subescapular
1501
0
11, 4470
9, 6000
5, 99136
35, 896
1, 837
,063
3, 754
,126
Cantidad de
grasa en el
tríceps
1501
0
17, 6963
17, 2000
7, 50735
56, 360
,520
,063
-, 203
,126
Tabla 2.8 Resumen de estadísticos con SPSS
Para obtener las medidas de tendencia central, posición, dispersión y forma con
SPSS, podemos seleccionar el botón ESTADÍSTICOS (figura 2.22) dentro de la
opción Analizar / Estadísticos descriptivos / FRECUENCIAS.
02. Estadística descriptiva
22 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
Figura 2.22
Otra opción es mediante Analizar / Estadísticos descriptivos / EXPLORAR
(figura 2.23) que permite obtener medidas de posición, dispersión y forma para
todos los individuos de la población, o bien, de forma separada, para grupos de
individuos; estudiar e identificar los valores extremos de la distribución; y,
representar gráficamente las variables mediante diagramas de caja e histogramas.
Variable cuantitativa
objeto de estudio
Variable que crea
los distintos grupos
Variable que sirve
para etiquetar casos
atípicos
Figura 2.23
02. Estadística descriptiva
23 - 24
Diplomado en Salud Pública
2. Metodología en Salud Pública
Descriptivos
Tiempo de superv iv encia
en días desde el
momento del diagnóstico
Sexo del paciente
Hombre
Mujer
Media
Interv alo de conf ianza
para la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv . t íp.
Mínimo
Máximo
Rango
Amplitud intercuart il
Asimetría
Curtosis
Media
Interv alo de conf ianza
para la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv . t íp.
Mínimo
Máximo
Rango
Amplitud intercuart il
Asimetría
Curtosis
Límite inf erior
Límite superior
Límite inf erior
Límite superior
Estadí stico
540,7919
474,9924
Error típ.
33,29729
606,5915
508,2453
413,0000
165197,747
406,44526
11,0
1823
1812,00
540,00
1,147
,753
616,8261
481,3863
,199
,395
67,24569
752,2659
596,2415
487,5000
208011,214
456,08246
11,0
1574
1563,00
558,25
,826
-,413
,350
,688
Tabla 2.9 Resumen de estadísticos por grupos con SPSS
02. Estadística descriptiva
24 - 24
Descargar