ESTADÍSTICA DESCRIPTIVA Medidas de tendencia central y de dispersión Giorgina Piani – Zuleika Ferre 1. Tendencia Central Son un conjunto de medidas estadísticas que determinan un único valor que define el centro de la distribución. El objetivo es encontrar aquel valor único que represente mejor al resto de los individuos en la distribución. Desafortunadamente no existe un único procedimiento para determinar la tendencia central La media aritmética La media de una distribución es la suma de cada valor dividido el número de casos. Es el promedio de la variable µ = Σx = x1 + x2 + x3 +…… xn n n Por tanto para una población de n= 4 3, 7, 4, 6 La media es µ = Σx = 20 = 5 n 4 Cálculo de Media para datos agrupados Se define Xi como punto medio del intervalo de clase = (Límite inferior + Límite superior)/2 Media = µ = Σ xi * ni n La mediana La mediana es aquel valor que divide a la distribución exactamente a la mitad (50%) El objetivo de la mediana es precisar exactamente el punto medio de la distribución. La mediana es útil cuando el investigador quiere dividir a la muestra en dos grupos, por ejemplo aquellos con alto puntaje y aquellos con bajo puntaje. Si los datos son impares Se deben ordenar los datos de menor a y entonces la mediana será el punto medio de la lista. – Ejemplo: 3, 5, 8, 10, 11. El punto medio es 8. Así que para número impar de datos la mediana se calcula como (n+1)/2 Si los datos son pares: Se deben ordenar los datos de menor a mayor y encontrar la mediana calculando el promedio de los dos valores medios. – Ejemplo: 8, 8, 9, 10, 11, 13 – 4 y 5 son los puntos medios. (9+10)/ 2 = 9.5 Así que para número par de datos la mediana se calcula como [(n/2) + (n/2)+1]/2 Deciles, cuartiles y percentiles Hay otras medidas de posición (no de tendencia central) análogas a la mediana. Cuartiles: En lugar de buscar la mitad de los datos, puedo querer determinar el valor del primer cuartil, que posee la propiedad de que ¼ de los datos sean de menor magnitud que la suya. (Q1, Q2, Q3) Deciles: Divide a la distribución en 10. Percentiles: Dividen a la distribución en 100 porciones de tamaño igual. Observese que por definición la mediana es equivalente al 2º cuartil, al quinto decil y al quincuagésimo percentil. El modo Es la categoría o el valor que acumula el mayor número de frecuencias, es decir es el valor más común. Para encontrarlo simplemente busco aquel valor con mayor frecuencia. Gráficamente, el modo es el punto más elevado de la curva. El modo puede no existir y si existe puede no ser único. Una distribución con un solo modo es unimodal y la que tiene dos modos es bimodal. Ejemplo 3 series de números: – 1: – 2: – 3: 71, 75, 83, 75, 61, 68 71, 75, 83, 74, 61, 68 71, 75, 83, 75, 83, 68 Seleccionando una medida de tendencia central Recordemos que el objetivo de las medidas de tendencia central es encontrar aquel valor único que mejor represente a toda la distribución. La media es la medida preferida (esta relacionada con la varianza y la desviación estándar lo cual la hace adecuada para la inferencia estadística). Existen situaciones en las que no es posible calcular la media o bien la misma no es particularmente representativa. Estadísticos a utilizar según escala de la variable… Tipo de escala de la variable Estadístico Nominal Modo Ordinal Modo Mediana Interval Modo Mediana Media Cuando usar la mediana Valores extremos o distribuciones sesgadas – – – Unos pocos valores extremos tienen un alto impacto provocando que la media se desplace del centro de la distribución. Ejemplo en Spss (base ejemplo 3.sav) Encontramos que la media no es muy representativa de los valores de la distribución. El valor extremo “infla” el promedio Con valor extremo Media = 20,3 Mediana= 11,5 – Sin valor extremo Media = 11,4 Mediana =11 Por tanto, conviene usar la mediana si la distribución es sesgada, ya que los valores en la cola de la distribución tienden a correr la media. Cuando usar el modo Como alternativa de la media o en combinación con ella. Escalas nominales: Dado que las escalas nominales 1. no miden cantidad, el modo es la única opción para describir tedencia central 2. Variables discretas: Son aquellas que no pueden ser divisibles. Ejemplo: número de hijos. Es posible calcular la media y decir “el promedio de hijos por famila es de 2.4” pero es mejor hablar del caso típico o modal y decir: “el valor modal muestra que una familia tiene 2 hijos”. 1. Describir la forma: dado que no tiene cálculos es una forma rápida de encontrar la forma de la distribución. Ejemplo: si decimos que los puntajes de un examen tienen una media de 72 y un modo de 80, tengo una mejor foto de la distribución que si sólo menciono la media. La forma de la distribución Dado que la media, la mediana y el modo están tratando de medir lo mismo (tendencia central) es esperable que estos 3 valores tengan cierta relación. Distribución simétrica: – La media y la mediana coinciden en el centro de la distribución, dividiendo a la misma en dos mitades iguales. – Si solamente hay un modo, está exactamente en el centro y por tanto los 3 valores (media, mediana y modo) coinciden. Distribuciones sesgadas: – La distribución no esta dividida en dos partes iguales. Sesgada a la derecha: El pico (frecuencia más alta) está en el lado izquierdo. En orden de dividir a la distribución a la mitad (50%), la mediana debe ubicarse a la derecha del modo. La media esta situada a la derecha de la mediana ya que es influenciada por los valores extremos. Sesgada a la izquierda: El pico se acumula en el lado derecho y la cola de la distribución en el izquierdo. 2. Dispersión o Variabilidad Variabilidad tiene el mismo significado en estadística que en el lenguaje común. Nuestro objetivo es medir la variabilidad de un conjunto de datos. – Si todos los puntajes de la distribución fueran iguales la variabilidad sería 0. Si hay una pequeña diferencia entre valores, la variabilidad es pequeña y si la diferencia entre valores es grande, entonces la variabilidad es grande. Una buena medida de variabilidad debe servir para dos propósitos: – Describir la distribución. Específicamente decir si los datos están agrupados o dispersos. Cuanta distancia espero encontrar entre los valores o entre un valor y la media. – La variabilidad representa el resto de la distribución. Utilidad en estadística inferencial en donde pequeñas muestras son utilizadas para responder preguntas de toda la población. Rango Es el indicador de dispersión más sencillo. Se calcula como la diferencia entre la primera y la última observación en una serie ordenada de mayor a menor. R = Xn – X1 Desviación cuartil o rango semicuartil Es la mitad de la distancia entre el primer y el tercer cuartil en una distribución de frecuencias Es decir: Q = (Q3 – Q1) / 2 Esta medida es poco influenciable a valores extremos pero sigue sin mostrar una buen foto de cómo se dispersan o agrupan los datos. Desviación estándar y varianza Es la medida más usada y la más importante. Utiliza la media de la distribución como punto de referencia y mide variabilidad a través de la distancia de cada valor a la media. Determina si los valores se agrupan cercanos a la media o lejanos. Paso 1: – Definimos Desviación como la distancia y dirección respecto a la media. (x - µ) – Hay dos partes en la desviación, el número y el signo (+ o -) – El signo indica la dirección respecto a la media: si esta por encima (+) o por debajo (-) Paso 2: – Nuestro objetivo es tener una medida de la distancia promedio a la media, así que debemos calcular la media de las desviaciones. – La suma de los (x - µ) es 0. Paso 3: – Debo “librarme” del signo, para lo cual elevo al cuadrado cada diferencia respecto a la media. – Utilizando la media de las desviaciones cuadradas definimos la Varianza – Por tanto: Varianza s2 = Σ (x - µ)2 n-1 * Paso 4: – Simplemente incorpora una corrección a los cuadrados calculados anteriormente, para lo cual definimos Desvio estándar s = √varianza * Observe que la fórmula utiliza n-1 en vez de n. Este ajuste es necesario como forma de corregir el sesgo en la varianza de la muestra. El efecto del ajuste permite incrementar el valor que obtenemos de manera que la varianza en la muestra sea más precisa. Una analogía para la media y la desviación estándar Supongamos que se debe decidir donde ubicar un nuevo liceo en un pueblo. Se consideró la opción de instalarlo en el lado sur del pueblo, pero fue desechado porque existe un gran número de estudiantes que viven en el norte. La ubicación del liceo es análogo al concepto de media. La media se ubica en el centro de la distribución de frecuencias. Para cada estudiante del pueblo, es posible medir la distancia entre su casa y el nuevo liceo. Algunos estudiantes viven a unas pocas cuadras, otros viven a más de 30 cuadras. La distancia promedio que un estudiante debe recorrer para llegar al liceo es análogo al concepto de desvio estándar, ya que éste mide la distancia de un dato respecto a la media. Coeficiente de variación Es una medida relativa de la dispersión. Es útil cuando queremos comparar la variación entre muestras o entre poblaciones. C.V. = S / µ * 100 Ejemplo: Muestra 1: Muestra 2: S=10 S=20 Media=50 Media=200 Que sea alto o bajo depende de la variable. Para dar una idea muy bajo <10%. Alto >30% CV=20% CV=10% En SPSS 3 procedimientos básicos de análisis univariado: – Tablas de frecuencia: Recomendable sobre todo para variables nominales u ordinales - como sexo o nivel socioeconómico- o cuando contamos con variables intervales con un número limitado de categorías. Analyze Î Descriptive Statistics Î Frequencies – Estadísticos descriptivos: Medidas de resumen tales como la media, la suma, el máximo o el mínimo, algunas de las cuales sólo pueden aplicarse a variables intervales. Analyze Î Descriptive Statistics Î Descriptives – Exploración de datos: Nos permite realizar análisis más profundos sobre las características de los datos, añadiendo además, la posibilidad de introducir factores (variables de corte), para la exploración de distintas poblaciones. Analyze Î Descriptive Statistics Î Explore