Bioestadística Estadística Descriptiva Profesor: Bárbara Leyton D. INTA. U de Chile Tópicos • Introducción. • Población y muestra. • Tipos de variables, escalas de medición. • Calidad de la información estadística. • Tablas estadísticas y gráficos. • Medidas resumen. • Representación Gráfica. Estadística Estadística Descriptiva Estadística Inferencial Conceptos previos Individuos o elementos: personas u objetos que contienen cierta información que se desea estudiar. Población: conjunto de todos los individuos que aporten información sobre el fenómeno que se estudia. Un estudio estadístico realizado sobre la totalidad de una población se denomina “censo”. Muestra: Subconjunto representativo de una población. Variable: Propiedad que se desea medir en cada observación individual. Parámetro: es un medida de resumen que describe una característica de todo la población. Estadístico: Función definida sobre los valores numéricos que describe una característica de toda la muestra. MUESTRA POBLACIÓN Obtención de datos Variable ( Estatura, número de caries, sexo) DATOS 1.2 , 1.5, 1.0, 1.6, 1.2, 1.1, 1.3 ( Estatura en metros) 2, 3, 4, 2, 5, 3, 1 (número de caries) 1, 1, 2, 2, 2, 1, 1 (sexo : fem=1, masc=2) Muestra ¿Qué ven en esta muestra? Características medibles en los sujetos de estudio Etnia Sexo Color del cabello Tipo de cabello País de procedencia Forma de los ojos Tipos de variables Cuantitativa Discreta (número de caries) Continua (presión sanguínea) Variable Nominal ( género) Cualitativa Ordinal (Escala del dolor) Relación entre Escalas Variables Cuantitativas Variables Cualitativas Presentación ordenada de datos 7 Género Hombre Frec. 4 6 5 4 3 Mujer 6 2 1 0 Hombre Mujer Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra. Tablas Definición La distribución de una variable nos da los valores posibles de la variable y cuantas veces ocurren. La distribución de una variable nos muestra la forma en que varía la variable. Tablas de distribución de frecuencias. Lo primero que hacemos al querer describir variables cualitativas, es decir, contar cuántas unidades caen en cada categoría de la variable. Esto lo presentamos en una tabla de distribución de frecuencias de la forma: Categoría de la variable Frecuencia Porcentaje … Total n 100 Tablas de frecuencia Exponen la información recogida en la muestra. Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad. Frecuencias relativas (%): Idem, pero dividido por el total. Frecuencias absolutas Frecuencias relativas % Frecuencias acumuladas Clases | Freq. Percent Cum. ------------+----------------------------------1 | 20 15.15 15.15 2 | 46 34.85 50.00 3 | 51 38.64 88.64 4 | 15 11.36 100.00 ------------+----------------------------------Total | 132 100.00 Tablas Bivariadas Ejemplo: A una misma persona se le puede medir NSE y genero. Genero NSE Hombre Mujer Alto 65 40 Medio Bajo 442 299 489 332 Gráficos Diagramas de sectores (también llamados tortas). Se divide un círculo en tantas porciones como categorías del estado civil existan, de modo que a cada categoría le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Recuperado de : http://estadisticasdescriptivasygraficos.blogspot.com/2012/06/grafico-de-tortas.html Diagrama de barras Se representan tantas barras como categorías tiene la variable. Ejemplo: para una variable cualitativa 10 Grupo sanguíneo Frecuencia A 6 B 4 9 8 7 6 5 4 AB 1 0 9 3 2 1 0 A B AB O Ejemplo de Diagrama de barras agrupadas 12 Grupo sanguíneo A América 6 Europa 10 8 B 4 2 6 AB 1 7 4 O 9 0 Total 20 2 20 10 América Europa 0 A B AB O Histogramas de frecuencias 0 .1 Density .2 .3 .4 Se utiliza para graficar los datos cuantitativos resumidos en tablas de frecuencia. Nos informa cuál es el número de apariciones de un valor en un conjunto de datos. 4 6 8 10 Hemoglobina glocosilada 12 Gráficos Diagrama de sectores o tortas Diagrama de barras Variables cualitativas Histograma Diagramas de cajas o Box plot Variables cuantitativas Formas de Distribuciones Simétrica, unimodal Ej. Puntajes en la PSU Asimétrica a la derecha (asimetría positiva) Ej. Sueldos de un Hospital Bimodal Ej. Estatura de la población de hombres y mujeres Asimétrica a la izquierda (asimetría negativa) Ej. Notas de un curso Medidas de Resumen Una forma de resumir la información contenida en los datos es a través de las medidas de resumen: Tendencia Central - Medidas de Posición Tendencia No Central - Medidas de Dispersión Medidas de posición de tendencia central Son aquellos valores hacia los cuales tienden a aglomerarse los datos de una muestra. Los más utilizados son: • Moda: observación que más se repite en una muestra. • Mediana: observación central de los datos ordenados en una muestra. • Promedio: suma de los datos dividido por el total de datos en una muestra. Moda - Puede ser calculada para todo tipo de variables. - Puede existir más de una moda en un conjunto de datos. - Puede que en un conjunto de datos no exista la moda. ¿Cuál sería la moda en este conjunto de frutas? Mediana Dato que se ubica en la posición central de un conjunto de datos ordenados. Ejemplo: Altura Mediana Interpretación de la mediana La mediana acumula hasta ella un 50% de los datos y desde ella acumula el otro 50% de los datos. Si en un conjunto de datos la mediana toma el valor 25, esto quiere decir que un 50% de los datos toma un valor inferior o igual a 25. Mediana La mediana no es afectada mayormente por presencia de datos con valores numéricos extremos. Promedio o Media Se puede calcular a datos proveniente de mediciones de variables de tipo cuantitativa. Medidas de Tendencia central x : promedio Me: mediana Mo: moda Medidas de Posición de Tendencia no central Las medidas de posición de tendencia no central son aquellos que dan información a cerca del orden en la estructura de una muestra. Los más utilizados son: – – – – – Mínimo Máximo Percentiles Cuartiles Deciles Medidas de Posición de Tendencia no central • Percentil k: valor del conjunto de datos ordenados que acumula hasta él un k% de los datos. • Cuartiles: percentiles 25, 50 y 75. • Deciles: percentiles 10, 20,30,40,50,60,70,80 y 90. Medidas de dispersión Indican que tan dispersos están los datos. • Rango: Diferencia entre máximo y mínimo. • Rango intercuartil: Diferencia entre el P75 – P25 • Desviación Estándar: Distancia promedio de todos los datos al promedio. • Varianza: Desviación estándar al cuadrado. Medidas de Dispersión • Las medidas de dispersión me permiten saber cuan dispersos están los datos. • En el caso particular de la desviación estándar, ésta sirve para medir cuan dispersos están los datos en promedio de la media. Varianza: s 2 (X ∑ = i − X) n −1 2 Medida de Posición Tendencia Central Tendencia No Central Medida de Dispersión Conclusión La estadística descriptiva nos permite representar, ordenar y resumir un conjunto de datos, de tal manera de obtener información relevante que describa el comportamiento de la variable en el grupo de estudio. Diagrama de caja (box plot) Se obtiene utilizando el concepto de percentiles. La caja central indica el rango en el que se concentra el 50% central de los datos, por lo tanto loa límites son el percentil 25 y 75. La línea central en la caja es la mediana. De este modo, si la variable es simétrica, dicha línea se encontrará en el centro de la caja. Los extremos de los “bigotes” que salen de la caja son los valores que delimitan el 95% central de los datos, aunque en ocasiones coinciden con los valores extremos de la distribución. P75 + 3 * (P75 –P25) Outlier P75 + 1.5 * (P75 –P25) P75 P50 P25 4 6 Hemoglobina glocosilada 8 10 12 14 Valor extremo P25 - 1.5 * (P75 –P25) P25 - 3 * (P75 –P25) Q1=P25 ; Q2=P50; Q3=P75; RIC=P75-P25 Este gráfico resulta especialmente útil para comprobar, gráficamente, posibles errores en nuestros datos. Outlier Outlier superior > P75 + 1.5 * (P75 –P25) Outlier inferior < P25 - 1.5 * (P75 –P25) Valor Extremo Extremo superior > P75 + 3 * (P75 –P25) Extremo inferior < P25 – 3 * (P75 –P25) Ejemplo Paper: “Evaluación de una intervención educativa para la prevención de la obesidad infantil en escuelas básicas de Chile” http://www.nutricionhospitalaria.com/pdf/6588.pdf RESUMEN Para describir una variable cuantitativa usamos una medida de tendencia central y una medida de dispersión: Medida de tendencia central Medida de dispersión Uso en distribuciones Ventajas Desventajas Promedio Desviación estándar Simétricas Buenas propiedades, muy usados. Sensible a valores extremos. Mediana Rango entre cuartiles Asimétrica Medidas robustas a valores extremos. El rango entre cuartiles no es muy conocido.