Estadística Descriptiva PARTE I Definición: La Estadística es la Ciencia de la • Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de • deducir las leyes que rigen esos fenómenos, • y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones. Pasos en un estudio estadístico Plantear hipótesis sobre una población ◦ Los fumadores tienen “menor” desempeño laboral que los no fumadores ◦ En qué sentido… ¿Tiempo promedio de trabajo? ¿Nro. de metas alcanzadas? Etc. Decidir qué datos recoger (diseño de experimentos) ◦ Qué individuos pertenecerán al estudio (muestras) ◦ Ej. Fumadores y no fumadores en edad laboral. ◦ Qué datos recoger de los mismos (variables) ◦ Ej. Sexo, Edad, Nro. licencias médicas, etc. Recoger los datos (muestreo) ◦ ¿Aleatorio Simple? ¿Estratificado? ¿Sistemático? Describir (resumir) los datos obtenidos ◦ Nro. de metas alcanzadas por fumadores y no fumadores (estadísticos) ◦ % de fumadores, Sexo , etc. (tablas de frecuencias) (gráficos) Realizar una inferencia sobre la población ◦ Los fumadores presentan mayor cantidad de licencias médicas que los no fumadores. Cuantificar la confianza en la inferencia ◦ Nivel de confianza del 95% o 99% - Significación del contraste: p= 5% o 1% Método científico y estadística Plantear objetivo o hipótesis Obtener conclusiones Diseñar experimento Recoger datos y analizarlos Población y muestra Población (‘population’) es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). ◦ Normalmente es demasiado grande para poder abarcarlo. ◦ A partir de ella determinamos parámetros Muestra (‘sample’) es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) ◦ Debería ser “representativo” ◦ Esta formado por miembros “seleccionados” de la población (individuos, unidades experimentales). ◦ A partir de ella determinamos estadísticos o estadígrafos Variables Una variable es una característica observable que varía entre los diferentes individuos de una población. La información que disponemos de cada individuo es resumida en variables. En los individuos de la población chilena, de uno a otro es variable: ◦ El grupo sanguíneo ◦ {A, B, AB, O} Var. categórica ◦ Su nivel de felicidad “declarado” ◦ {Deprimido, Ni fu ni fa, Muy Feliz} Var. categórica ◦ El número de hijos ◦ {0,1,2,3,...} Var. numérica ◦ La altura ◦ {1’62 ; 1’74; ...} Var. numérica Tipos de variables Cualitativas o Categóricas Si sus valores no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos) ◦ Nominales: Si sus valores no se pueden ordenar ◦ Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No) ◦ Ordinales: Si sus valores se pueden ordenar ◦ Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor Cuantitativas o Numéricas Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos) ◦ Discretas: Si toma valores enteros (se pueden contar) ◦ Número de hijos, Número de cigarrillos, Nro. de calzado ◦ Continuas: Si entre dos valores, son posibles infinitos valores intermedios (se pueden medir). ◦ Altura, Presión intraocular, Dosis de un medicamento, edad en años cumplidos Tipo VARIABLES CATEGORICAS VARIABLES NUMERICAS Naturaleza Escala CUALITATIVAS NOMINAL ORDINAL CUANTITATIVAS INTERVALO Atributos de la escala Ninguno Orden Orden Distancia Orden Distancia Origen Características Posee características a las que se asigna un nombre sin que exista ningún orden implícito entre ellas Posee característica ordenadas pero no permite cuantificar la distancia entre una categoría y otra. Tiene intervalos iguales y medibles entre valores consecutivos. No tiene un origen real, por lo que se puede asumir valores negativos. Tiene intervalos iguales y medibles entre valores consecutivos, además de un origen real. El cero implica la ausencia de la variable (individuo). Ejemplos Género Estado civil Nivel Instrucción Intensidad Dolor Temperatura Saldo Bancario Masa Corporal Compras Modalidades Femenino Masculino Soltero Casado Divorciado Viudo Básica Media Superior Leve Moderado Alto -10°C 0°C 15°C $ -10.000 $0 $+15.000 0,0 kg 35,2 kg 63,5 kg Uno Dos Tres RAZON NOTA: Si una variable sólo posee dos modalidades o categorías, entonces se define como DICOTÓMICA. Ej. Género, etc. NOTA: Aunque se codifiquen con números, debemos recordar siempre el verdadero tipo de las variables y su significado (su naturaleza). Es buena idea codificar las variables como números para poder procesarlas con facilidad en un ordenador. Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los códigos numéricos. ◦ Sexo (Cuali: Códigos arbitrarios) ◦ 1 = Hombre ◦ 2 = Mujer ◦ Raza (Cuali: Códigos arbitrarios) ◦ 1 = Blanca ◦ 2 = Negra,... ◦ Felicidad Ordinal: Respetar un orden al codificar. ◦ 1 = Bastante feliz ◦ 2 = Regularmente feliz ◦ 3 = Infeliz Discreta Cuantitativa (Numérica) Continua Cualitativa (Categórica) Ordinal VARIABLES Nominal Razón Intervalo Ordinal Nominal Orden Variables Categóricas Origen Distancia Distancia Orden Orden Variables Numéricas Los posibles valores de una variable suelen denominarse modalidades. Las modalidades pueden agruparse en clases (intervalos) ◦ Edades: ◦ Menos de 20 años, de 20 a 50 años, más de 50 años ◦ Hijos: ◦ Menos de 3 hijos, De 3 a 5, 6 o más hijos Las modalidades/clases deben forman un sistema exhaustivo y excluyente ◦ Exhaustivo: No podemos olvidar ningún posible valor de la variable ◦ Mal: ¿Cuál es su color del pelo: Rubio o Negro? ◦ Bien: ¿Cuál es su grupo sanguíneo? ◦ Excluyente: Nadie puede presentar dos valores simultáneos de la variable ◦ ◦ ◦ ◦ Mal: ¿Cuál es su pasatiempo favorito: leer o ir al cine? Bien: Le gusta el deporte: (Sí, No) Bien: Le gusta el cine: (Sí, No) Mal: Cuántos hijos tiene: ninguno, menos de 5, más de 2. Presentación ordenada de datos 7 Género Frec. Hombre 4 6 5 4 3 2 Mujer 6 1 0 Hombre Mujer Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra. Tablas de frecuencia Exponen la información recogida en la muestra, de forma que no se pierda nada de información (o poca). ◦ Frecuencias absolutas (ni) : Contabilizan el número casos cada modalidad o intervalo ◦ Frecuencias relativas (fi (relativa)- Fi (acumulada)) (%) : Idem, pero respecto del total ◦ Frecuencias acumuladas (Ni): Sólo tienen sentido para variables que poseen atributo de orden (numéricas y ordinales) ◦ Muy útiles para calcular cuantiles (se verá más adelante – Parte 2) ◦ ¿Qué porcentaje de individuos tiene menos de 3 hijos? ◦ ¿ Y entre 4 y 6 hijos? Sol: 83,8% Soluc 1ª: 8,4%+3,6%+1,6% = 13,6%. Número de hijos Válidos Perdidos Tot al 0 1 2 3 4 5 6 7 Ocho o más Tot al No cont esta Frecuencia 419 255 375 215 127 54 24 23 17 1509 8 1517 Porcentaje 27, 6 16, 8 24, 7 14, 2 8, 4 3, 6 1, 6 1, 5 1, 1 99, 5 ,5 100,0 Porcentaje v álido 27, 8 16, 9 24, 9 14, 2 8, 4 3, 6 1, 6 1, 5 1, 1 100,0 Porcentaje acumulado 27, 8 44, 7 69, 5 83, 8 92, 2 95, 8 97, 3 98, 9 100,0 Sexo del encuestado Válidos Hombre Mujer Tot al Frecuencia 636 881 1517 Porcentaje 41, 9 58, 1 100,0 Porcentaje v álido 41, 9 58, 1 100,0 Datos desordenados y ordenados en tablas Variable: Género Género Frec. Frec. relat. porcentaje Hombre 4 4/10=0,4=40% Mujer 6/10=0,6=60% ◦ Modalidades: ◦ H = Hombre ◦ M = Mujer Muestra: ◦ MHHMMHMMMH ◦ equivale a HHHH MMMMMM 6 10=tamaño muestral Ejemplo ¿Cuántos individuos tienen menos de 2 hijos? ◦ frec. indiv. sin hijos + frec. indiv. con 1 hijo = 419 + 255 = 674 individuos ¿Qué porcentaje de individuos tiene 6 hijos o menos? ◦ 97,3% ¿Qué cantidad de hijos hay hasta el 50% acumulado de la población encuestada? ◦ 2 hijos ≥50% Gráficos para variables cualitativas Diagramas de barras ◦ Alturas proporcionales a las frecuencias (abs. o rel.) ◦ Se pueden aplicar también a variables discretas Diagramas de sectores (tortas / polares) ◦ No usarlo con variables ordinales ◦ El área de cada sector es proporcional a su frecuencia (abs. o rel.) Pictogramas ◦ Fáciles de entender. ◦ El área de cada modalidad debe ser proporcional a la frecuencia. ◦ ¿De los dos, cuál es incorrecto?. Gráficos diferenciales para variables numéricas ◦ Diagramas barras para v. discretas 419 40 0 375 30 0 Recuento Son diferentes en función de que las variables sean discretas o continuas. Se emplean las frecuencias absolutas o relativas. 255 215 20 0 127 10 0 ◦ Se deja un espacio entre barras para indicar los valores que no son posibles 54 24 0 1 2 3 4 5 6 23 17 7 Ocho o má s Núme ro de hijos ◦ Histogramas para v. continuas 20 0 Recuento ◦ El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo. 25 0 15 0 10 0 50 20 40 60 Edad del e ncue stado 80 Otros tipos de Gráficos para Variables Agrupadas en Clases. Se conocen como: Polígono de Frecuencia Se construye a partir de las marcas de clase y las frecuencias absolutas. Ojiva de Frecuencia Se construye a partir de los límites superiores de cada clase y las frecuencias acumuladas. TIPOS DE GRÁFICAS Y ESTADÍSTICOS SEGÚN VARIABLES Variables Categóricas (cualitativas) Estadísticas • Tabla de distribución de frec. absolutas • Tabla de distribución de frec. relativas Gráficos • Barras simple • Barras agrupadas • Circular • Diag. puntos Variables Numéricas (cuantitativas) Estadísticas • Media • Mediana • Moda • Varianza • Desviación estándar • Tablas Gráficos • Barra Simple • Barra agrupadas • Histograma • Diag. caja y bigote • Diag. tallo y hoja