Subido por Carmen Gloria Narváez C

Estadistica Descriptiva P1 2018

Anuncio
Estadística Descriptiva
PARTE I
Definición:
La Estadística es la Ciencia de la
• Sistematización, recogida, ordenación y presentación de los
datos referentes a un fenómeno que presenta variabilidad o
incertidumbre para su estudio metódico, con objeto de
• deducir las leyes que rigen esos fenómenos,
• y poder de esa forma hacer previsiones sobre los mismos,
tomar decisiones u obtener conclusiones.
Pasos en un estudio estadístico
Plantear hipótesis sobre una población
◦ Los fumadores tienen “menor” desempeño laboral que los no fumadores
◦ En qué sentido… ¿Tiempo promedio de trabajo? ¿Nro. de metas alcanzadas? Etc.
Decidir qué datos recoger (diseño de experimentos)
◦ Qué individuos pertenecerán al estudio (muestras)
◦ Ej. Fumadores y no fumadores en edad laboral.
◦ Qué datos recoger de los mismos (variables)
◦ Ej. Sexo, Edad, Nro. licencias médicas, etc.
Recoger los datos (muestreo)
◦ ¿Aleatorio Simple? ¿Estratificado? ¿Sistemático?
Describir (resumir) los datos obtenidos
◦ Nro. de metas alcanzadas por fumadores y no fumadores (estadísticos)
◦ % de fumadores, Sexo , etc. (tablas de frecuencias) (gráficos)
Realizar una inferencia sobre la población
◦ Los fumadores presentan mayor cantidad de licencias médicas que los no fumadores.
Cuantificar la confianza en la inferencia
◦ Nivel de confianza del 95% o 99% - Significación del contraste: p= 5% o 1%
Método científico y estadística
Plantear objetivo
o hipótesis
Obtener
conclusiones
Diseñar
experimento
Recoger datos
y analizarlos
Población y muestra
Población (‘population’) es el conjunto sobre el que
estamos interesados en obtener conclusiones (hacer
inferencia).
◦ Normalmente es demasiado grande para poder
abarcarlo.
◦ A partir de ella determinamos parámetros
Muestra (‘sample’) es un subconjunto suyo al que
tenemos acceso y sobre el que realmente hacemos las
observaciones (mediciones)
◦ Debería ser “representativo”
◦ Esta formado por miembros “seleccionados” de la
población (individuos, unidades experimentales).
◦ A partir de ella determinamos estadísticos o
estadígrafos
Variables
Una variable es una característica observable que varía entre los diferentes
individuos de una población. La información que disponemos de cada
individuo es resumida en variables.
En los individuos de la población chilena, de uno a otro es
variable:
◦ El grupo sanguíneo
◦ {A, B, AB, O}  Var. categórica
◦ Su nivel de felicidad “declarado”
◦ {Deprimido, Ni fu ni fa, Muy Feliz}  Var. categórica
◦ El número de hijos
◦ {0,1,2,3,...}  Var. numérica
◦ La altura
◦ {1’62 ; 1’74; ...}  Var. numérica
Tipos de variables
Cualitativas o Categóricas
Si sus valores no se pueden asociar naturalmente a un número (no se pueden
hacer operaciones algebraicas con ellos)
◦ Nominales: Si sus valores no se pueden ordenar
◦ Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)
◦ Ordinales: Si sus valores se pueden ordenar
◦ Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor
Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con
ellos)
◦ Discretas: Si toma valores enteros (se pueden contar)
◦ Número de hijos, Número de cigarrillos, Nro. de calzado
◦ Continuas: Si entre dos valores, son posibles infinitos valores intermedios (se pueden
medir).
◦ Altura, Presión intraocular, Dosis de un medicamento, edad en años cumplidos
Tipo
VARIABLES CATEGORICAS
VARIABLES NUMERICAS
Naturaleza
Escala
CUALITATIVAS
NOMINAL
ORDINAL
CUANTITATIVAS
INTERVALO
Atributos de
la escala
Ninguno
Orden
Orden
Distancia
Orden
Distancia
Origen
Características
Posee características a las que
se asigna un nombre sin que
exista ningún orden implícito
entre ellas
Posee característica ordenadas
pero no permite cuantificar la
distancia entre una categoría y
otra.
Tiene intervalos iguales y medibles
entre valores consecutivos. No
tiene un origen real, por lo que se
puede asumir valores negativos.
Tiene intervalos iguales y medibles
entre valores consecutivos,
además de un origen real. El cero
implica la ausencia de la variable
(individuo).
Ejemplos
Género
Estado civil
Nivel
Instrucción
Intensidad
Dolor
Temperatura
Saldo
Bancario
Masa
Corporal
Compras
Modalidades
Femenino
Masculino
Soltero
Casado
Divorciado
Viudo
Básica
Media
Superior
Leve
Moderado
Alto
-10°C
0°C
15°C
$ -10.000
$0
$+15.000
0,0 kg
35,2 kg
63,5 kg
Uno
Dos
Tres
RAZON
NOTA: Si una variable sólo posee dos modalidades o categorías, entonces se define como DICOTÓMICA. Ej. Género, etc.
NOTA: Aunque se codifiquen con números,
debemos recordar siempre el verdadero
tipo de las variables y su significado (su
naturaleza).
Es buena idea codificar las variables como
números para poder procesarlas con facilidad en
un ordenador.
Es conveniente asignar “etiquetas” a los valores
de las variables para recordar qué significan los
códigos numéricos.
◦ Sexo (Cuali: Códigos arbitrarios)
◦ 1 = Hombre
◦ 2 = Mujer
◦ Raza (Cuali: Códigos arbitrarios)
◦ 1 = Blanca
◦ 2 = Negra,...
◦ Felicidad Ordinal: Respetar un orden al codificar.
◦ 1 = Bastante feliz
◦ 2 = Regularmente feliz
◦ 3 = Infeliz
Discreta
Cuantitativa
(Numérica)
Continua
Cualitativa
(Categórica)
Ordinal
VARIABLES
Nominal
Razón
Intervalo
Ordinal
Nominal
Orden
Variables Categóricas
Origen
Distancia
Distancia
Orden
Orden
Variables Numéricas
Los posibles valores de una variable suelen denominarse modalidades.
Las modalidades pueden agruparse en clases (intervalos)
◦ Edades:
◦ Menos de 20 años, de 20 a 50 años, más de 50 años
◦ Hijos:
◦ Menos de 3 hijos, De 3 a 5, 6 o más hijos
Las modalidades/clases deben forman un sistema exhaustivo y excluyente
◦ Exhaustivo: No podemos olvidar ningún posible valor de la variable
◦ Mal: ¿Cuál es su color del pelo: Rubio o Negro?
◦ Bien: ¿Cuál es su grupo sanguíneo?
◦ Excluyente: Nadie puede presentar dos valores simultáneos de la variable
◦
◦
◦
◦
Mal: ¿Cuál es su pasatiempo favorito: leer o ir al cine?
Bien: Le gusta el deporte: (Sí, No)
Bien: Le gusta el cine: (Sí, No)
Mal: Cuántos hijos tiene: ninguno, menos de 5, más de 2.
Presentación ordenada de datos
7
Género
Frec.
Hombre
4
6
5
4
3
2
Mujer
6
1
0
Hombre
Mujer
Las tablas de frecuencias y las representaciones gráficas son dos
maneras equivalentes de presentar la información. Las dos
exponen ordenadamente la información recogida en una
muestra.
Tablas de frecuencia
Exponen la información recogida en la muestra, de forma que no se
pierda nada de información (o poca).
◦ Frecuencias absolutas (ni) : Contabilizan el número casos cada modalidad o
intervalo
◦ Frecuencias relativas (fi (relativa)- Fi (acumulada)) (%) : Idem, pero respecto del
total
◦ Frecuencias acumuladas (Ni): Sólo tienen sentido para variables que poseen
atributo de orden (numéricas y ordinales)
◦ Muy útiles para calcular cuantiles (se verá más adelante – Parte 2)
◦ ¿Qué porcentaje de individuos tiene menos de 3 hijos?
◦ ¿ Y entre 4 y 6 hijos?
Sol: 83,8%
Soluc 1ª: 8,4%+3,6%+1,6% = 13,6%.
Número de hijos
Válidos
Perdidos
Tot al
0
1
2
3
4
5
6
7
Ocho o más
Tot al
No cont esta
Frecuencia
419
255
375
215
127
54
24
23
17
1509
8
1517
Porcentaje
27, 6
16, 8
24, 7
14, 2
8, 4
3, 6
1, 6
1, 5
1, 1
99, 5
,5
100,0
Porcentaje
v álido
27, 8
16, 9
24, 9
14, 2
8, 4
3, 6
1, 6
1, 5
1, 1
100,0
Porcentaje
acumulado
27, 8
44, 7
69, 5
83, 8
92, 2
95, 8
97, 3
98, 9
100,0
Sexo del encuestado
Válidos
Hombre
Mujer
Tot al
Frecuencia
636
881
1517
Porcentaje
41, 9
58, 1
100,0
Porcentaje
v álido
41, 9
58, 1
100,0
Datos desordenados y ordenados en tablas
Variable: Género
Género Frec.
Frec. relat.
porcentaje
Hombre 4
4/10=0,4=40%
Mujer
6/10=0,6=60%
◦ Modalidades:
◦ H = Hombre
◦ M = Mujer
Muestra:
◦ MHHMMHMMMH
◦ equivale a
HHHH MMMMMM
6
10=tamaño
muestral
Ejemplo
¿Cuántos individuos tienen menos de
2 hijos?
◦ frec. indiv. sin hijos
+
frec. indiv. con 1 hijo
= 419 + 255
= 674 individuos
¿Qué porcentaje de individuos tiene 6
hijos o menos?
◦ 97,3%
¿Qué cantidad de hijos hay hasta el
50% acumulado de la población
encuestada?
◦ 2 hijos
≥50%
Gráficos para variables cualitativas
Diagramas de barras
◦ Alturas proporcionales a las frecuencias (abs. o rel.)
◦ Se pueden aplicar también a variables discretas
Diagramas de sectores (tortas / polares)
◦ No usarlo con variables ordinales
◦ El área de cada sector es proporcional a su frecuencia (abs. o rel.)
Pictogramas
◦ Fáciles de entender.
◦ El área de cada modalidad debe ser proporcional a la frecuencia.
◦ ¿De los dos, cuál es incorrecto?.
Gráficos diferenciales para variables numéricas
◦ Diagramas barras para v. discretas
419
40 0
375
30 0
Recuento
Son diferentes en función de que las variables
sean discretas o continuas. Se emplean las
frecuencias absolutas o relativas.
255
215
20 0
127
10 0
◦ Se deja un espacio entre barras para indicar los valores
que no son posibles
54
24
0
1
2
3
4
5
6
23
17
7 Ocho o má s
Núme ro de hijos
◦ Histogramas para v. continuas
20 0
Recuento
◦ El área que hay bajo el histograma entre dos puntos
cualesquiera indica la cantidad (porcentaje o
frecuencia) de individuos en el intervalo.
25 0
15 0
10 0
50
20
40
60
Edad del e ncue stado
80
Otros tipos de Gráficos para Variables Agrupadas en Clases.
Se conocen como:
Polígono de Frecuencia
Se construye a partir de las marcas
de clase y las frecuencias
absolutas.
Ojiva de Frecuencia
Se construye a partir de los límites
superiores de cada clase y las
frecuencias acumuladas.
TIPOS DE GRÁFICAS Y ESTADÍSTICOS
SEGÚN VARIABLES
Variables Categóricas
(cualitativas)
Estadísticas
• Tabla de distribución
de frec. absolutas
• Tabla de distribución
de frec. relativas
Gráficos
• Barras simple
• Barras agrupadas
• Circular
• Diag. puntos
Variables Numéricas
(cuantitativas)
Estadísticas
• Media
• Mediana
• Moda
• Varianza
• Desviación estándar
• Tablas
Gráficos
• Barra Simple
• Barra agrupadas
• Histograma
• Diag. caja y bigote
• Diag. tallo y hoja
Descargar