Análisis de Datos I Esquema del Tema 5 Tema 5. Medidas de Variación 1. LA VARIANZA 2. LA DESVIACIÓN TÍPICA 3. PROPIEDADES DE LA MEDIA Y DE LA VARIANZA 4. OTRAS MEDIDAS DE VARIACIÓN 5. REPRESENTACIÓN GRÁFICA DE LA VARIABILIDAD __________________ Bibliografía: Tema 3 (pág. 81-102) Carmen Ximénez 1 Análisis de Datos I Esquema del Tema 5 Para conseguir una visión completa y comprensiva de los datos obtenidos hay que complementar las medidas de tendencia central con otros estadísticos que reflejen otras propiedades. Por ejemplo, el grado en que los datos se parecen o diferencian entre sí, propiedad que se denomina variabilidad o variación. Ejemplo. Consideremos los siguientes datos en X para los grupos A y B: XA: XB: 8 3 9 8 10 9 11 10 Totales: 12 50 20 50 Medias: X = 10 Y = 10 Las medias en A e B son iguales, pero… ¿Son los datos similares? Para cuantificar esta variación podemos calcular la media de las distancias al cuadrado de las puntuaciones a la media (la varianza). Es decir: xA: -2 xB: -7 xA2: 4 xB2: 49 -1 0 -2 -1 1 0 4 1 1 0 1 0 Totales: 2 0 10 0 4 10 100 154 Medias: 0 0 2 30,8 2 1. LA VARIANZA, S x Es el promedio de las distancias al cuadrado desde los valores en X hasta la media X (es decir, de las puntuaciones diferenciales al cuadrado) en una muestra de n sujetos. 2 X Fórmulas: S ∑(X − X) = 2 i 2 X S N 2 X Fórmula alternativa: S Ejemplo 1: Xi: 4, 5, 2, 5. N 2 i 2 i N (en puntuaciones diferenciales) 2 −X X=4 xi: 0, 1, -2, 1. xi2: 0, 1, 4, 1. ∑X = ∑x = S X2 = 0 +1+ 4 +1 = 1,5 4 O bien: S X2 = 70 2 − 4 = 1,5 4 2. LA DESVIACIÓN TÍPICA, S X SX = S2X Suele utilizarse más que la varianza porque al calcular la raíz cuadrada se retoman las 2 En el Ejemplo 1: S X = S X = 1,5 = 1, 22 unidades de medida originales para resumir las distancias entre las X y la X . Carmen Ximénez 2 Análisis de Datos I Esquema del Tema 5 2 LA CUASIVARIANZA, S N -1 ∑(X − X) = 2 2 N -1 S i N -1 Propiedades: S2N < S2N -1 ; ( N ) S N2 = ( N - 1) S N2 -1 3. PROPIEDADES DE LA MEDIA Y DE LA VARIANZA 1. X puede tomar cualquier valor mientras que S X2 y SX son siempre positivas, siendo su valor mínimo 0. 2. Si Yi = Xi + k Y =X+k SY2 = S2X ; 3. Si Yi = c Xi Y= c X SY2 = c2 S2X ; SY = | c | SX SY2 = c2 S2X ; SY = | c | SX SY = SX Ejemplo 2: Xi: 7, 9, 5, 11 X=8 S X2 = 5 Y = c X +k 4. Si Yi = c Xi + k 4. OTRAS MEDIDAS DE VARIACIÓN Amplitud total o rango: AT = Xmáx - Xmín Amplitud semi-intercuartílica Q = Coeficiente de variación: CV = Q3 − Q1 2 SX × 100 X 5. REPRESENTACIÓN GRÁFICA DE LA VARIABILIDAD Diagrama de cajas 6 5 Valor máximo que toma la variable (Xmáx) 4 Q3: Centil 75 Q2: Centil 50 3 Q1: Centil 25 2 1 Valor mínimo que toma la variable (Xmín ) 0 A B Carmen Ximénez C D E F 3 Análisis de Datos I Esquema del Tema 5 EJERCICIO 1 Obtenga la varianza en cada uno de los siguientes conjuntos de datos: X: x: x2 : 7 3 3 -1 4 0 5 1 3 -1 2 -2 Y: y: y2 : 11 -1 12 0 14 2 15 3 10 -2 12 0 W: w: w2: 1,3 -0,2 1,7 0,2 1,6 0,1 1,4 -0,1 1,5 0 24 10 -2 84 7,5 EJERCICIO 2 Para estudiar la tolerancia al dolor, 35 voluntarios sumergen la mano en agua fría. Sabiendo que la transformación de grados centígrados a Fahrenheit se obtiene mediante: ºF = 9 º C + 32 5 a) Si la temperatura media soportada en la muestra española es de 2,3 ºC y la de una muestra Americana fue de 37,3 ºF, ¿Qué muestra tiene mayor tolerancia a temperaturas extremas? b) Si la varianza de la temperatura tolerada es de 1,8 ºC en la muestra española y de 4 ºF en la Americana, ¿Qué muestra es más homogénea en las temperaturas toleradas? EJERCICIO 3 A los valores obtenidos por una muestra en un test con media 13 y desviación típica 2 los multiplicamos por una constante y le sumamos otra constante. Es decir: Y = k X + c. Tras estas operaciones la media de Y queda en 25 y la varianza en 9. Según esto, ¿Cuáles son las constantes sumadas y multiplicadas? EJERCICIO 4 Se evalúa el nivel de tabaquismo en una muestra de 3 varones y 5 mujeres. Género Tabaquismo (Xi) V V V M M M M M 3 4 2 7 5 2 10 6 Carmen Ximénez 1. Calcule la media y varianza para mujeres y varones (por separado) 2. Calcule la media y la varianza para el grupo total 3. ¿Qué grupo es más homogéneo? 4