Subido por Paula Castro Vergara

estadistica descriptiva

Anuncio
Bioestadística
Estadística Descriptiva
Profesor: Bárbara Leyton D.
INTA. U de Chile
Tópicos
• Introducción.
• Población y muestra.
• Tipos de variables, escalas de medición.
• Calidad de la información estadística.
• Tablas estadísticas y gráficos.
• Medidas resumen.
• Representación Gráfica.
Estadística
Estadística
Descriptiva
Estadística
Inferencial
Conceptos previos
Individuos o elementos: personas u objetos que
contienen cierta información que se desea estudiar.
Población: conjunto de todos los individuos que
aporten información sobre el fenómeno que se
estudia.
Un estudio estadístico realizado sobre la totalidad
de una población se denomina “censo”.
Muestra: Subconjunto representativo de una
población.
Variable: Propiedad que se desea medir en cada
observación individual.
Parámetro: es un medida de resumen que describe
una característica de todo la población.
Estadístico: Función definida sobre los valores
numéricos que describe una característica de toda
la muestra.
MUESTRA
POBLACIÓN
Obtención de datos
Variable
( Estatura, número de caries, sexo)
DATOS
1.2 , 1.5, 1.0, 1.6, 1.2, 1.1, 1.3
( Estatura en metros)
2, 3, 4, 2, 5, 3, 1
(número de caries)
1, 1, 2, 2, 2, 1, 1
(sexo : fem=1, masc=2)
Muestra
¿Qué ven en esta muestra?
Características medibles en los sujetos de estudio
Etnia
Sexo
Color del cabello
Tipo de cabello
País de procedencia
Forma de los ojos
Tipos de variables
Cuantitativa
Discreta (número de caries)
Continua (presión sanguínea)
Variable
Nominal ( género)
Cualitativa
Ordinal (Escala del dolor)
Relación entre Escalas
Variables Cuantitativas
Variables Cualitativas
Presentación ordenada de datos
7
Género
Hombre
Frec.
4
6
5
4
3
Mujer
6
2
1
0
Hombre
Mujer
Las tablas de frecuencias y las representaciones
gráficas son dos maneras equivalentes de presentar la
información. Las dos exponen ordenadamente la
información recogida en una muestra.
Tablas
Definición
La distribución de una variable nos da
los valores posibles de la variable y
cuantas veces ocurren.
La distribución de una variable nos
muestra la forma en que varía la
variable.
Tablas de distribución de frecuencias.
Lo primero que hacemos al querer describir
variables cualitativas, es decir, contar cuántas
unidades caen en cada categoría de la variable.
Esto lo presentamos en una tabla de distribución
de frecuencias de la forma:
Categoría de
la variable
Frecuencia
Porcentaje
…
Total
n
100
Tablas de frecuencia
Exponen la información recogida en la muestra.
 Frecuencias absolutas: Contabilizan el número de individuos de
cada modalidad.
 Frecuencias relativas (%): Idem, pero dividido por el total.
Frecuencias absolutas
Frecuencias relativas %
Frecuencias acumuladas
Clases
|
Freq.
Percent
Cum.
------------+----------------------------------1 |
20
15.15
15.15
2 |
46
34.85
50.00
3 |
51
38.64
88.64
4 |
15
11.36
100.00
------------+----------------------------------Total |
132
100.00
Tablas Bivariadas
Ejemplo: A una misma persona se le puede medir
NSE y genero.
Genero
NSE
Hombre
Mujer
Alto
65
40
Medio
Bajo
442
299
489
332
Gráficos
Diagramas de sectores (también llamados tortas).
Se divide un círculo en tantas porciones como
categorías del estado civil existan, de modo que a cada
categoría le corresponde un arco de círculo
proporcional a su frecuencia absoluta o relativa.
Recuperado de : http://estadisticasdescriptivasygraficos.blogspot.com/2012/06/grafico-de-tortas.html
Diagrama de barras
Se representan tantas barras como categorías tiene la
variable.
Ejemplo: para una variable cualitativa
10
Grupo
sanguíneo
Frecuencia
A
6
B
4
9
8
7
6
5
4
AB
1
0
9
3
2
1
0
A
B
AB
O
Ejemplo de Diagrama de barras agrupadas
12
Grupo
sanguíneo
A
América
6
Europa
10
8
B
4
2
6
AB
1
7
4
O
9
0
Total
20
2
20
10
América
Europa
0
A
B
AB
O
Histogramas de frecuencias
0
.1
Density
.2
.3
.4
Se utiliza para graficar los datos cuantitativos resumidos en tablas de
frecuencia. Nos informa cuál es el número de apariciones de un
valor en un conjunto de datos.
4
6
8
10
Hemoglobina glocosilada
12
Gráficos
Diagrama de sectores o tortas
Diagrama de barras
Variables cualitativas
Histograma
Diagramas de cajas o Box plot
Variables cuantitativas
Formas de Distribuciones
Simétrica, unimodal
Ej. Puntajes en la PSU
Asimétrica a la derecha
(asimetría positiva)
Ej. Sueldos de un Hospital
Bimodal
Ej. Estatura de la población de
hombres y mujeres
Asimétrica a la izquierda
(asimetría negativa)
Ej. Notas de un curso
Medidas de Resumen
Una forma de resumir la información contenida
en los datos es a través de las medidas de
resumen:
Tendencia Central
- Medidas de Posición
Tendencia No Central
- Medidas de Dispersión
Medidas de posición de tendencia central
Son aquellos valores hacia los cuales tienden a
aglomerarse los datos de una muestra.
Los más utilizados son:
• Moda: observación que más se repite en una
muestra.
• Mediana: observación central de los
datos ordenados en una muestra.
• Promedio: suma de los datos dividido
por el total de datos en una muestra.
Moda
- Puede ser calculada para todo tipo de
variables.
- Puede existir más de una moda en un
conjunto de datos.
- Puede que en un conjunto de datos no
exista la moda.
¿Cuál sería la moda en este conjunto de frutas?
Mediana
Dato que se ubica en la posición central de un
conjunto de datos ordenados.
Ejemplo: Altura
Mediana
Interpretación de la mediana
La mediana acumula hasta ella un 50%
de los datos y desde ella acumula el otro
50% de los datos.
Si en un conjunto de datos la mediana
toma el valor 25, esto quiere decir que un
50% de los datos toma un valor inferior o
igual a 25.
Mediana
La mediana no es afectada mayormente
por presencia de datos con valores
numéricos extremos.
Promedio o Media
Se puede calcular a datos proveniente
de mediciones de variables de tipo
cuantitativa.
Medidas de Tendencia central
x : promedio
Me: mediana
Mo: moda
Medidas de Posición de Tendencia no
central
Las medidas de posición de tendencia no central
son aquellos que dan información a cerca del
orden en la estructura de una muestra.
Los más utilizados son:
–
–
–
–
–
Mínimo
Máximo
Percentiles
Cuartiles
Deciles
Medidas de Posición de Tendencia no
central
• Percentil k:
valor del conjunto de datos ordenados
que acumula hasta él un k% de los datos.
• Cuartiles:
percentiles 25, 50 y 75.
• Deciles:
percentiles 10, 20,30,40,50,60,70,80 y 90.
Medidas de dispersión
Indican que tan dispersos están los datos.
• Rango:
Diferencia entre máximo y mínimo.
• Rango intercuartil:
Diferencia entre el P75 – P25
• Desviación Estándar: Distancia promedio de todos
los datos al promedio.
• Varianza: Desviación estándar al cuadrado.
Medidas de Dispersión
• Las medidas de dispersión me permiten saber
cuan dispersos están los datos.
• En el caso particular de la desviación estándar,
ésta sirve para medir cuan dispersos están los
datos en promedio de la media.
Varianza:
s
2
(X
∑
=
i
− X)
n −1
2
Medida de Posición
Tendencia Central
Tendencia No Central
Medida de Dispersión
Conclusión
La estadística descriptiva nos permite
representar, ordenar y resumir un
conjunto de datos, de tal manera de
obtener información relevante que
describa el comportamiento de la
variable en el grupo de estudio.
Diagrama de caja (box plot)
Se obtiene utilizando el concepto de percentiles.
La caja central indica el rango en el que se
concentra el 50% central de los datos, por lo tanto
loa límites son el percentil 25 y 75.
La línea central en la caja es la mediana. De este
modo, si la variable es simétrica, dicha línea se
encontrará en el centro de la caja.
Los extremos de los “bigotes” que salen de la caja
son los valores que delimitan el 95% central de los
datos, aunque en ocasiones coinciden con los
valores extremos de la distribución.
P75 + 3 * (P75 –P25)
Outlier
P75 + 1.5 * (P75 –P25)
P75
P50
P25
4
6
Hemoglobina glocosilada
8
10
12
14
Valor extremo
P25 - 1.5 * (P75 –P25)
P25 - 3 * (P75 –P25)
Q1=P25 ; Q2=P50; Q3=P75; RIC=P75-P25
Este gráfico resulta especialmente útil para
comprobar, gráficamente, posibles errores en
nuestros datos.
Outlier
Outlier superior > P75 + 1.5 * (P75 –P25)
Outlier inferior < P25 - 1.5 * (P75 –P25)
Valor Extremo
Extremo superior > P75 + 3 * (P75 –P25)
Extremo inferior < P25 – 3 * (P75 –P25)
Ejemplo
Paper:
“Evaluación de una intervención educativa para la
prevención de la obesidad infantil en escuelas básicas
de Chile”
http://www.nutricionhospitalaria.com/pdf/6588.pdf
RESUMEN
Para describir una variable cuantitativa usamos una
medida de tendencia central y una medida de
dispersión:
Medida de
tendencia
central
Medida de
dispersión
Uso en
distribuciones
Ventajas
Desventajas
Promedio
Desviación
estándar
Simétricas
Buenas propiedades,
muy usados.
Sensible a valores
extremos.
Mediana
Rango entre
cuartiles
Asimétrica
Medidas robustas a
valores extremos.
El rango entre cuartiles
no es muy conocido.
Descargar