M. Carmen Carollo Limeres Profesora Titular de la USC. Unidad de Bioestadística. Facultad de Medicina mdelcarmen.carollo@usc.es Octubre de 2011 Explorando los datos. ¿Cómo resumir la información de tipo cuantitativo? Variables cuantitativas Índice 1. Introducción 2. Clasificación de variables 3. Estadística descriptiva – Frecuencias – Representaciones gráficas – Medidas resumen 4. Resumen 5. Software 6. Bibliografía 3 Introducción 1. Introducción 4 1. Introducción Base de datos “ais”: Los datos corresponden a 102 hombres y a 100 mujeres deportistas colegiados en el Instituto Australiano de Deportes Gran cantidad de datos Los datos contienen información Técnicas que permitan organizar y resumir los datos 5 Clasificación de variables 2. Clasificación de variables 6 2. Clasificación de variables Variables Cuantitativas 7 Cualitativas Continuas Discretas Ordinales Categóricas -Altura -IMC -Hcto -Hb -Nº de días concentración IMC (Cole et al.) Sexo Tipo deporte, FEGAS Estadística descriptiva 3. Estadística descriptiva 8 3. Estadística descriptiva La Estadística descriptiva se ocupa de: clasificar y resumir la información contenida en los datos a través de técnicas numéricas y técnicas gráficas. En esta presentación veremos cómo resumir la información relacionada con datos cuantitativos 9 3. Estadística descriptiva Representaciones gráficas Medidas resumen Distribuciones de frecuencias Estadística descriptiva 10 FEGAS 3. 1 Distribuciones de frecuencias 3. Estadística Descriptiva Frecuencias Representaciones Gráficas Medidas resumen 11 3. 1 Distribuciones de frecuencias • Frecuencia Absoluta (ni) : es el número de veces que ocurre cada resultado (xi). • Frecuencia Relativa (fi ): Es la frecuencia absoluta dividida por el número de observaciones. • Frecuencia Absoluta Acumulada (Ni ): Es el número de veces que se ha observado un resultado ≤ xi . • Frecuencia Relativa Acumulada (Fi): Es la frecuencia absoluta acumulada dividida por el número total de observaciones. 12 FEGAS 3. 1 Distribuciones de frecuencias. Datos discretos 13 Nº DE DÍAS (Xi) Frecuencias Absolutas (ni) Frecuencias relativas (fi) Frecuencias acumuladas Absolutas (Ni) Frecuencias acumuladas relativas (Fi) 20 42 0,21 42 0,21 21 32 0,16 74 0,37 22 29 0,14 103 0,51 23 34 0,17 137 0,68 24 28 0,14 165 0,82 25 37 0,18 202 1,00 202 1,00 FEGAS 3. 1 Distribuciones de frecuencias. Datos continuos Para datos continuos el resumen anterior es poco práctico. Agrupar los datos en intervalos de clase (representados por la marca de clase) Xi [ )[ )[ )[ )… [ )[ )[ ) ni Frecuencias = Número de observaciones por intervalo Intervalos: Cuantos más intervalos, más información pero menos manejable. Cuantos menos intervalos, menos información pero es más manejable. Número de intervalos a considerar: El entero más próximo a de datos (como máximo 10 intervalos) 14 n ,n= nº © 2010.NETEX 3. 1 Distribuciones de frecuencias. Datos continuos Hcto Intervalos Marcas de Clase (Xi) Frec. Frec. Absolutas relativas (ni) (fi) Frec. Frec. acumuladas acumuladas Absolutas relativas (Ni) (Fi) [35-40) 37,5 46 0,228 46 0,228 [40-45) 42,5 88 0,435 134 0,663 [45-50) 47,5 65 0,322 199 0,985 [50-55) 52,5 2 0,010 201 0,995 [55-60) 57,5 1 0,005 202 1,000 1,000 202 15 FEGAS 3.2 Representaciones gráficas 3. Estadística Descriptiva Frecuencias Representaciones Gráficas Medidas resumen 16 3.2 Representaciones gráficas Tipo de variable Cuantitativas Cualitativas Continuas Histograma 17 Diagrama de cajas Discretas Diagrama de barras Diagrama de sectores Diagrama de barras Diagrama de sectores 3.2 Representaciones gráficas. Datos discretos Nº DE DÍAS Frecuencias absolutas 20 42 21 32 22 29 23 34 24 28 25 37 Nº días concentración 18 3.2 Representaciones gráficas. Datos discretos Nº DE DÍAS Frecuencias absolutas 20 42 21 32 22 29 23 34 24 28 25 37 ¡Atención! Representación útil sólo si la variable tiene pocos valores 19 3.2 Representaciones gráficas. Datos continuos Hcto Marcas de Clase (Xi) Frec. Absolutas [35-40) 37,5 46 [40-45) 42,5 88 [45-50) 47,5 65 [50-55) 52,5 2 [55-60) 57,5 1 Intervalos (ni) Hcto 20 FEGAS 3.2 Representaciones gráficas. Datos continuos Hcto 21 Hcto 3.2 Representaciones gráficas. Datos continuos Primer cuartil: primer valor que acumula el 25 % de las observaciones Segundo cuartil o mediana: primer valor que acumula el 50 % de las observaciones Tercer cuartil: primer valor que acumula el 75 % de las observaciones 22 FEGAS 3.2 Representaciones gráficas. Datos continuos Mediana Dato atípico Cuartil 1º Cuartil 3º Hcto Bigotes 23 FEGAS 3.2 Representaciones gráficas. Datos continuos 24 FEGAS 3.2 Representaciones gráficas. Datos continuos por datos categóricos Hcto por sexo Hcto ¿El hematocrito depende del sexo? 25 FEGAS Representaciones gráficas. Datos continuos por datos continuos Hb ¿Existe alguna relación entre el Hcto y la Hb? Hcto 26 FEGAS 3.2 Representaciones gráficas. Datos continuos por datos continuos Hcto ¿Existe alguna relación entre el IMC y el Hcto? IMC 27 FEGAS Clasificación-Representaciones gráficas Distribuciones de frecuencias Clasificación de Datos Representaciones gráficas IDEA GLOBAL DE CONJUNTO 28 FEGAS 3.3 Medidas resumen 3. Estadística Descriptiva Frecuencias Representaciones Gráficas Medidas resumen 29 3.3 Medidas resumen Medidas resumen Posición 30 Dispersión Forma FEGAS 3.3 Medidas resumen de posición Tendencia central 31 Tendencia no central • Media • Rango • Mediana • Cuartiles • Moda • Percentiles FEGAS 3.3 Medidas resumen de posición • Medidas de posición de tendencia central Media: Suma de valores dividido entre el nº de datos X = 1 ∑ X i n i Mediana: Primer valor que acumula el 50% de los datos Moda: Valor/valores que más se repiten 32 FEGAS Medidas resumen de posición Ejemplo: nº de días de concentración 3 3 3 4 5 5 15 Media: (3+3+3+4+5+5+15)/7 = 5,43 Mediana: 3 3 3 4 5 5 15 • Moda: 3 33 Medidas resumen de posición • Propiedades de la media: – Es única. – Sólo tiene sentido para datos numéricos. – Su valor está comprendido entre el mínimo y el máximo de los datos. – Es el “centro de gravedad” de los datos. – Está afectada por cada valor. Valores extremos pueden distorsionarla. 34 FEGAS Medidas descriptivas de posición • • • • Propiedades de la mediana: Es única. Los datos deben ser al menos de tipo ordinal. Su valor está comprendido entre el mínimo y el máximo de los datos. • Los valores extremos no tienen efectos importantes sobre ella. Ejemplo nº de días de concentración: 3 Media = 5,43 35 3 3 4 5 5 15 Mediana = 4 FEGAS 3.3 Medidas resumen de posición • Medidas de posición de tendencia no central Rango: diferencia entre la mayor y la menor de las observaciones Cuartiles: tres observaciones que dividen el rango en cuatro partes iguales (25%, 50%,75%) Percentiles: 99 observaciones que dividen el rango en cien partes iguales 36 FEGAS Medidas resumen de posición Ejemplo: nº de días de concentración 3 3 3 4 5 5 15 Rango: 15 – 3= 12 Cuartiles: cuartil 1º 3 Percentiles: 37 10% 3 cuartil 2º 4 25% 3 cuartil 3º 5 50% 4 90% 15 3.3 Medidas resumen de dispersión • La dispersión de un conjunto de datos se refiere a la variabilidad que muestran. Rango Más concentrada Varianza Más dispersa Coeficiente de variación 38 FEGAS 3.3 Medidas resumen de dispersión • Medidas de dispersión Rango: diferencia entre la mayor y la menor de las observaciones k 1 2 Varianza:= S Xi − X ) ( ∑ n i =1 2 Coeficiente de variación: CVhombres=0,079 39 CV = S X CVmujeres=0,081 FEGAS Medidas resumen de dispersión Ejemplo: nº de días de concentración 3, 3, 3, 4, 5, 5, 15 Rango: R=15 – 3= 12 1 2 2 2 2 s 2 = [ ( 3 − 5, 43 ) + ( 3 − 5, 43 ) + ( 3 − 5, 43 ) + ( 4 − 5, 43 ) + 7 Varianza: + ( 5 − 5, 43 ) + ( 5 − 5, 43 ) + (15 − 5, 43) ] = 15, 96 2 2 2 Coeficiente de variación: CV= 3,99/5,43 = 0,73 40 3.3 Medidas resumen de forma Medidas de forma Asimetría 41 Apuntamiento FEGAS 3.3 Medidas resumen de forma. Asimetría = CAS k ∑ ( xi − X ) i =1 3 1 ns 3 CA = 0 CA < 0 42 CA > 0 FEGAS 3.3 Medidas resumen de forma. Apuntamiento El coeficiente de apuntamiento mide el grado de concentración de los datos, en la región central de la distribución, comparado con m4 el de la “distribución normal”. CA= −3 p 4 s Apuntamiento = 0 Apuntamiento > 0 43 Apuntamiento < 0 FEGAS Conclusión 4. Conclusión/Resumen 44 4. Conclusión • Es imprescindible organizar y resumir los datos de forma correcta: Identificar el tipo de dato ¿Es cualitativo? ¿Es cuantitativo? Utilizar la técnica adecuada de Estadística descriptiva Interpretar correctamente los resultados 45 Software 5. Software 46 5. Software • Excel: • Epidat 4.0: http://www.sergas.es/MostrarContidos_N3_T01.asp x?IdPaxina=62713 • R: http://www.r-project.org/ • 47 SPSS: © 2010.NETEX Bibliografía 6. Referencias/Bibliografía 48 6. Bibliografía • • • • • • • • 49 Álvarez Cáceres, R. (2007) “Estadística Aplicada a las Ciencias de la Salud”. Editorial Diaz de Santos. Daniel, W.W. (2006) “Bioestadística. Base para el análisis de las ciencias de la salud”. (2ª ed). Editorial LIMUSA.Wiley. Douglas G. Altman (1997) “Practical Statistics for Medical Research”. Ed. Chapman & Hall. Martín Andrés, A.; Luna del Castillo, J. (1994) “Bioestadística para las ciencias de la salud”. (4ª ed). Ediciones Norma. Martínez González, M.A, Almudena Sánchez y Javier Faulin. (2006). “Bioestadística amigable”. 2ª ed. Editorial Diaz de Santos. Milton, J.S. (1994) “Estadística para biología y ciencias de la salud”. (2ª ed). Ed. Interamericana, McGraw-Hill. Quesada, V. y otros (1982) “Curso de ejercicios de estadística”. (2ª ed). Editorial Alambra. Rosner, B. (2000) “Fundamentals of biostatistics”. (5ª ed). Wadsworth Publishing Company. Duxbury Press. ¡¡¡MUCHAS GRACIAS!!!