Análisis de Datos I Esquema del Tema 3 Tema 3. Estadísticos univariados: tendencia central, variabilidad, asimetría y curtosis 1. MEDIDAS DE TENDENCIA CENTRAL La media aritmética La mediana La moda Comparación entre las medidas de tendencia central 2. MEDIDAS DE VARIACIÓN La varianza y la desviación típica Otras medidas de variación 3. PROPIEDADES DE LA MEDIA Y LA VARIANZA 4. ASIMETRÍA Y CURTOSIS 5. EJERCICIOS __________________ Bibliografía: Tema 3 (pág. 85-117) Ejercicios recomendados: 1, 3, 4, 5, 8, 9, 11, 12, 14, 18, 19, 20, 23, 24, 25, 27, 28 y 30. Carmen Ximénez 1 Análisis de Datos I Esquema del Tema 3 1. MEDIDAS DE TENDENCIA CENTRAL LA MEDIA ARITMÉTICA, X Informa sobre la tendencia general de la variable X en una muestra de N sujetos Fórmula: X X i N Ejemplo 1: X: 4, 5, 2, 5. Donde: X 45 25 4 4 - La media aritmética es el índice de tendencia central más utilizado. - Sólo puede calcularse para variables cuantitativas - Es muy sensible a valores extremos (distribuciones marcadamente asimétricas) Conocida X , las puntuaciones Xi (o puntuaciones directas) pueden expresarse como desviaciones a la media grupal. Esto es, como las denominadas Puntuaciones diferenciales: xi X i X Con los datos del Ejemplo 1, x: 0 1 -2 1 Donde: (X X ) 0 (o bien x = 0). Por tanto, (X X ) 0 .... (o bien x2 0) i x0 2 i Con los datos del Ejemplo 1: x2 = 0 + 1+ 4 + 1 = 6 LA MEDIANA, Mdn Puntuación en X que divide la distribución en dos partes iguales: deja por debajo y por encima de sí al 50% de las observaciones Cálculo: Ejemplo 2: 7, 11, 6, 5, 7, 12, 9, 8, 10, 6, 9. 1º. Se ordenan los datos de menor a mayor: 5, 6, 6, 7, 7, 8, 9, 9, 10, 11, 12. 2º. Si N es impar: Mdn = valor central. En el Ejemplo 2, Mdn = 8 Mdn1 Mdn 2 2 3º. Mdn también puede obtenerse calculando el centil 50 de la distribución. Si N es par: Mdn = media aritmética de los valores centrales: Mdn se diferencia de X en que no se ve afectada por los valores extremos que pueda tomar la variable X LA MODA, Mo Valor de la variable X que más aparece en nuestros datos (el que obtiene la mayor frecuencia absoluta ni) En el Ejemplo 1: X: 4, 5, 2, 5. Donde Mo = 5. * Si hay dos valores de X con la ni mayor, la distribución es bimodal (si estos valores son cercanos, para calcular Mo puede hallarse la media de ambos). Carmen Ximénez 2 Análisis de Datos I Esquema del Tema 3 COMPARACIÓN ENTRE LAS MEDIDAS DE TENDENCIA CENTRAL Criterios a seguir: 1º. X (entre otras razones porque es el mejor estimador del parámetro poblacional ). 2º. Si no puede calcularse X (p.e. variables ordinales, valores extremos) obtener Mdn. 3º. Si no puede obtenerse Mdn (p.e. datos nominales, intervalos abiertos con más del 50% de sujetos) obtener Mo. En algunos casos los tres indicadores pueden dar valores similares pero no necesariamente ha de ser así. Mdn = X = Mo solo si la distribución es simétrica: X X Mdn Mo Asimetría positiva Simetría Asimetría negativa 2. MEDIDAS DE VARIACIÓN Para conseguir una visión completa y comprensiva de los datos obtenidos hay que complementar las medidas de tendencia central con otros estadísticos que reflejen otras propiedades. Por ejemplo, el grado en que los datos se parecen o diferencian entre sí, propiedad que se denomina variabilidad o variación. Ejemplo 3. Consideremos los siguientes datos en X para los grupos A y B: XA: 8 9 10 11 XB: 3 8 9 10 Totales: Medias: 12 50 X A 10 20 50 X B 10 Las medias en A e B son iguales, pero… ¿Son los datos similares? Para cuantificar esta variación podemos calcular la media de las distancias al cuadrado de las puntuaciones a la media (la varianza). Es decir: xA: xB: xA2: xB2: -2 -7 4 49 -1 -2 1 4 Carmen Ximénez 0 -1 0 1 1 0 1 0 Totales: Medias: 2 0 0 10 0 0 4 10 2 100 154 30,8 3 Análisis de Datos I Esquema del Tema 3 2 La Varianza, S X Es el promedio de las distancias al cuadrado desde los valores en X hasta la media X (es decir, de las puntuaciones diferenciales al cuadrado) en una muestra de n sujetos. 2 X Fórmulas: S (X X )2 i 2 X S N X 2 X Fórmula alternativa: S 2 i X N x 2 i N (en puntuaciones diferenciales) 2 X 4 En el Ejemplo 1: Xi: 4, 5, 2, 5. xi: 0, 1, -2, 1. S X2 xi2: 0, 1, 4, 1. 0 1 4 1 1,5 4 O bien: SX2 70 2 4 1,5 4 La Desviación Típica, S X SX S2X En el Ejemplo 1: S X S X 1,5 1, 22 2 Se utiliza más que la varianza porque al calcular la raíz cuadrada se retoman las unidades de medida originales para resumir las distancias entre las X y la X . 2 La Cuasivarianza, S N -1 ( X X ) 2 i 2 N -1 S N -1 Propiedades: SN2 SN2 -1 ; ( N ) S N2 ( N -1) S N2 -1 OTRAS MEDIDAS DE VARIACIÓN Amplitud total o rango: AT = Xmáx - Xmín Coeficiente de variación: CV SX 100 X 3. PROPIEDADES DE LA MEDIA Y DE LA VARIANZA 1. X puede tomar cualquier valor mientras que S X2 y SX son siempre positivas, siendo su valor mínimo 0. 2. Si tenemos una misma variable X que ha sido medida en k grupos y conocemos las medias y varianzas en cada grupo, entonces podemos calcular los estadísticos globales: X1 X2 X3 Ni 6 3 4 ( X j X T )2 Xi 2 3 5 N Si2 4 5 6 N X N 2 X 2 ... N k X k XT 1 1 N1 N 2 ... N k 2 T S N S N j 2 j N j j Ejemplo 4: j XT ST2 Carmen Ximénez 6(2) 3(3) 4(5) 3,15 6 3 4 6(4) 3(5) 4(6) 6(2 3,15)2 3(3 3,15)2 4(5 3,15)2 6,52 13 13 4 Análisis de Datos I Esquema del Tema 3 4. ASIMETRÍA Y CURTOSIS Además de la tendencia central y la variación, hay otras dos características que nos permiten describir una distribución de frecuencias. Tienen que ver con la forma de la distribución. Se trata de la asimetría y la curtosis. Índice de asimetría La asimetría de una distribución hace referencia al grado en que los datos se reparten por encima y por debajo de la tendencia central. Índice: As x 3 i 3 X . N S A Donde, xi3 ( X i X )3 B INTERPRETACIÓN: C A. Si As > 0: Asimetría positiva B. Si As = 0: Simetría C. Si As < 0: Asimetría negativa X * 0 1 2 3 4 5 6 Nota: el índice mostrado es el más común, aunque sólo puede calcularse para variables donde pueda obtenerse la media y la varianza (cuantitativas). Índice de curtosis La curtosis hace referencia al grado de apuntamiento de una distribución. xi4 4 4 Índice: Cr 3 . Donde, xi ( X i X ) 4 N SX A INTERPRETACIÓN: B A. Si Cr > 0: distribución Leptocúrtica B. Si Cr = 0: distribución Mesocúrtica C. Si Cr < 0: distribución Platicúrtica C X 0 1 2 3 4 5 6 Ejemplo 5 Xi 2 4 8 2 16 : X =4 Media: As x 3 i 3 X N S Carmen Ximénez xi2 4 0 16 4 24 xi -2 0 4 -2 0 xi3 -8 0 64 -8 48 xi4 16 0 256 16 288 Varianza: S2X = 6 48 0,82 ; (4)(2,453 ) Cr SX = 2,45 x 4 i 4 X N S -3 288 3 1 (4)(2,454 ) 5 Análisis de Datos I Esquema del Tema 3 5. EJERCICIOS EJERCICIO 1 : X x = X -X x2 = (X - X )2 3 6 7 7 2 1. Calcule la media de X 2. Rellene los huecos de la tabla EJERCICIO 2 Calcule la mediana y la media en los siguientes conjuntos de datos: a) 5, 6, 7, 7, 8, 9, 9, 10, 10 b) 12, 13, 13, 14, 15, 16, 16, 17 c) 3, 4, 4, 5, 5, 6, 6, 6, 6, 155 EJERCICIO 3 Calcule la moda para cada una de las distribuciones que aparecen en la tabla: Xi n1 n2 n3 n4 1 2 3 4 5 6 7 8 1 2 5 14 8 6 3 1 40 5 5 5 5 5 5 5 5 40 2 5 10 5 4 10 3 1 40 2 5 12 12 4 3 1 1 40 EJERCICIO 4 Obtenga la varianza en cada uno de los siguientes conjuntos de datos: X: x: x2 : 7 3 3 -1 4 0 5 1 3 -1 2 -2 Y: y: y2 : 11 -1 12 0 14 2 15 3 10 -2 12 0 W: w: w2: 1,3 -0,2 1,7 0,2 1,6 0,1 1,4 -0,1 1,5 0 24 10 -2 84 7,5 EJERCICIO 5 Se evalúa el nivel de tabaquismo en una muestra de 3 varones y 5 mujeres. Género Tabaquismo (Xi) 3 V 1. Calcule la media y varianza para mujeres y varones 4 V (por separado) 2 V 7 M 2. Calcule la media y la varianza para el grupo total 5 M (aplicando las propiedades) 2 M 3. ¿Qué grupo es más homogéneo? 10 M 6 M Carmen Ximénez 6 Análisis de Datos I Esquema del Tema 3 EJERCICIO 6 La dirección general de tráfico está interesada en estudiar la educación vial en los jóvenes. Para ello selecciona una muestra aleatoria de sujetos que acaban de obtener el carnet de conducir (grupo 1) y otra con sujetos que lo tienen hace 5 años (grupo 2) y registra el nº de veces que han perdido puntos en el último año. Los resultados se muestran a continuación: Grupo 1: 1 2 4 1. X1 2 S 12 1, 5 Grupo 2: 2 7 7 8. X1 6 S 12 5, 5 Calcule los índices de asimetría y curtosis para cada grupo y elabore la representación gráfica de las dos distribuciones en una sola gráfica. Interprete los resultados obtenidos. Carmen Ximénez 7