La desviación típica y otras medidas de dispersión DISPERSIÓN O VARIACIÓN La dispersión o variación de los datos intenta dar una idea de cuan esparcidos se encuentran éstos. Hay varias medidas de tal dispersión, siendo las más comunes el rango, la desviación media, el rango semi-intercuartilar, el rango percentilar 10-90 y la desviación típica o estándar. EL RANGO El rango de un conjunto de números es la diferencia entre el mayor y el menor de todos ellos. EJEMPLO 1. El rango del conjunto 2, 3, 3, 5, 5, 5, 8, 10, 12 es 12 - 2 = 10. A veces el rango se indica dando el par de valores extremos; así, en este ejemplo, seria 2-12. LA DESVIACIÓN MEDIA La desviación media o desviación promedio, de un conjunto de N números X1 , X2 , …, XN es abreviada por DM y se define como (19) donde es la media aritmética de los números y |Xj – | es el valor absoluto de la desviación de Xj respecto de (El valor absoluto de un número es el número sin signo y se denota con dos barras verticales; así |-4| = 4, |+3| = 3, |6| = 6 y |-0.84| = 0.84.) EJEMPLO 2. Hallar la desviación media del conjunto 2, 3, 6, 8, 11. Si X1 , X2 , ..., XK ocurren con frecuencias f1, f2 , ... , fK , respectivamente, la desviación media se puede escribir como (20) Esta forma es útil para datos agrupados, donde los Xj representan las marcas de clase y los fj son las correspondientes frecuencias de clase. Ocasionalmente se define la desviación media en términos de desviaciones absolutas respecto de la mediana u otro promedio, en vez de la media. Una propiedad interesante de la suma Estadística y Diseño Experimental Página - 34 es que es mínima cuando a es la mediana (o sea, la desviación media respecto de la mediana es mínima). Nótese que sería más apropiado usar la terminología desviación media absoluta que desviación media. EL RANGO SEMI-INTERCUARTILAR El rango semi-intercuartilar, o desviación cuartilar, de un conjunto de datos se denota por Q y se define como (21) donde Q1 y Q3 son el primer y tercer cuartil de esos datos. El rango intercuartilar Q3 – Q1 también se usa a veces, pero menos que el rango semi-intercuartilar, como medida de dispersión. EL RANGO PERCENTILAR 10-90 El rango percentilar 10-90 de un conjunto de datos se define por Rango percentilar 10-90 = P90 - P10 (22) donde Pl0 y P90 son los décimo y nonagésimo percentiles de esos datos. Puede usarse también el Rango Semipercentilar 10-90 = ½(P90 - P10 ). Pero no es frecuente. LA DESVIACIÓN TÍPICA O ESTÁNDAR La desviación estándar de un conjunto de N números X1 , X2 , ..., XN se denota por s y se define como (23) donde x representa las desviaciones de cada uno de los números Xj respecto de la media . Así que s es la raíz cuadrada de la media de las desviaciones cuadráticas, o como se le llama en ocasiones, la desviación raiz-media-cuadrado. Si X1 , X2 , ..., XK ocurren con frecuencias f1 , f2 , …, fK , respectivamente, la desviación estándar puede expresarse (24) De esta forma resulta útil para datos agrupados. A veces se define la desviación estándar de los datos de una muestra con (N – 1) reemplazando a N en los denominadores de (23) y (24), porque el valor resultante da una mejor estimación de la desviación estándar de la población total. Para grandes valores de N (ciertamente para N > 30), no hay prácticamente diferencia entre ambas definiciones. Además, cuando se necesita esa mejor Estadística y Diseño Experimental Página - 35 estimación, siempre podemos obtenerla multiplicando la aquí definida por nos quedaremos con la elección (23) y (24). . Por tanto, LA VARIANZA La varianza de un conjunto de datos se define como el cuadrado de la desviación estándar y viene dada en consecuencia por s2 en las ecuaciones (23) y (24). Cuando sea necesario distinguir la desviación estándar de una población de la de una muestra de dicha población, usaremos el símbolo s para esta última y ó (sigma griega minúscula) para la primera. De modo que s2 y ó2 representarían la varianza de la muestra y la varianza de la población, respectivamente. MÉTODOS CORTOS PARA CALCULAR LA DESVIACIÓN ESTÁNDAR Las ecuaciones (5) y (6) se pueden escribir, respectivamente, en las formas equivalentes (25) (26) donde denota la media de los cuadros de los diversos valores de X, mientras cuadrado de la media de los valores de X. denota el Si dj = Xj – A son las desviaciones de Xj respecto de alguna constante arbitraria A, los resultados (25) y (26) se convierten, respectivamente, en (27) (28) Cuando se tienen los datos agrupados en una distribución de frecuencias cuyos intervalos de clase tienen la misma anchura c, tenemos dj = cuj o sea Xj = A + cuj y (28) pasa a ser Estadística y Diseño Experimental Página - 36 (29) Esta última fórmula proporciona un método muy breve para calcular la desviación estándar y debe usarse para datos agrupados con igual anchura en sus intervalos de clase. Se llama método de compilación y es similar al utilizado para el cálculo de la media aritmética de datos agrupados. PROPIEDADES DE LA DESVIACIÓN ESTÁNDAR 1. La desviación estándar puede definirse .como donde a es cualquier valor presuntivo de promedio. De tales desviaciones estándares, la mínima es aquella para la cual a = , debido a la Propiedad 2 de la media aritmética. Esta propiedad da una buena razón para adoptar la definición del comienzo. 2. Para distribuciones normales, resulta (ver figura 1.17): (a) (b) (c) 68,27% de los casos están entre X & –sy& X + s (o sea, una desviación estándar a cada lado de la media). 95,45% de los casos están entre X & – 2s y & X + 2s (o sea, dos desviaciones estándares a cada lado de la media). 99,73% de los casos entre X & – 3s y & X + 3s (o sea, tres desviaciones estándares a cada lado de la media). Para distribuciones poco asimétricas, los anteriores porcentajes son aproximadamente válidos. Figura 1.17 3. Supongamos que dos conjuntos de N1 y N2 números (o dos distribuciones de frecuencias con frecuencias totales N1 y N2 tienen varianza dadas por s1 2 y s2 2 , respectivamente, y tienen la misma media X &. Entonces la varianza combinada de ambos conjuntos (o de ambas distribuciones de frecuencias) vendrá dada por (30) Estadística y Diseño Experimental Página - 37 Nótese que esto es una medida aritmética ponderada de las varianzas. El resultado admite generalización a más conjuntos. COMPROBACIÓN DE CHARLIER La comprobación de Charlier en cálculos de la media y de la desviación típica por el método de compilación hace uso de las identidades CORRECCIÓN DE SHEPPARD PARA LA VARIANZA El cálculo de la desviación estándar es algo erróneo como resultado del agrupamiento de datos en clases (error de agrupamiento). Para corregirlo, se usa la fórmula (31) donde c es la anchura del intervalo de clase. La corrección c2 /12 (que se resta) se llama corrección de Sheppard. Se usa para distribuciones de variables continuas donde las «colas» van gradualmente hacia cero en ambas direcciones. Los estadísticos difieren respecto de cuándo y dónde debe aplicarse la corrección. Ciertamente no debe aplicarse antes de examinar cuidadosamente la situación, pues a menudo tiende a sobrecorregir, con lo que sustituye un error por otro. En nuestro curso, salvo indicación expresa, no la usaremos. RELACIONES EMPÍRICAS ENTRE MEDIDAS DE DISPERSIÓN Para distribuciones poco sesgadas, se tienen las fórmulas empíricas (32) donde: DM = Desviación media s = desviación estándar y (33) donde: RSQ = Rango Semiintercuartilar s = desviación estándar Ambas son consecuencia del hecho de que la desviación media y el rango semi-intercuartilar para la distribución normal son iguales, respectivamente, a 0,7979 y 0,6745 veces la desviación estándar. Estadística y Diseño Experimental Página - 38 DISPERSIÓN ABSOLUTA Y RELATIVA: COEFICIENTE DE VARIACIÓN La variación o dispersión real, tal como se determina en la desviación estándar u otra medida de dispersión, se llama la dispersión absoluta. Sin embargo, una dispersión (o variación) de 25 centímetros en la medida de 350 metros es muy diferente de esa misma dispersión al medir una distancia de 10 metros. Una medida de este efecto la da la dispersión relativa, a saber (34) Si la dispersión absoluta es la desviación estándar s y el promedio es la media X & , entonces la dispersión relativa se denomina coeficiente de variación, o coeficiente de dispersión; se denotará por V y se define como (35) y se expresa en general en forma de porcentaje. Nótese que el coeficiente de variación es independiente de las unidades usadas. Por esa razón es útil al comparar distribuciones con unidades diferentes. Una desventaja del coeficiente de variación es que pierde su utilidad cuando X & es próxima a cero. VARIABLES TIPIFICADAS: UNIDADES ESTÁNDAR La variable que mide la desviación de la medida en unidades de la desviación estándar se llama una variable tipificada o estandarizada, es adimensional (independiente de las unidades usadas) y viene dada por (36) Si las desviaciones de la media se dan en unidades de la desviación estándar, se dicen expresadas en unidades estándar, o recuentos estándar. Son de gran valor al comparar distribuciones. Estadística y Diseño Experimental Página - 39 PROBLEMAS PROPUESTOS EL RANGO 1.125 Hallar el rango de los conjuntos (a) 12, 6, 7, 3, 15, 10, 18, 5 y (b) 9, 3, 8, 8, 9, 8, 9, 18. 1.126 Hallar el rango de las alturas de los estudiantes de la Tabla 1.1. 1.127 Hallar el rango de los conjuntos de números (a) 5, 3, 8, 4, 7, 6, 12, 4, 3 y (b) 8,772, 6,453, 10,624, 8,628, 9,434, 6,351. 1.128 Hallar el rango de las cargas máximas del Problema 1.52, Tabla 1.17. 1.129 Hallar el rango de los diámetros de remaches del Problema 1.54, Tabla 1.19. 1.130 La mayor de 50 medidas es 8,34 kilogramos (Kg). Si el rango es 0,46 Kg, hallar la menor de esas medidas. 1.131 Determinar el rango de los datos en (a) Problema 1.55, (b) Problema 1.78 y (c) Problema 1.20. LA DESVIACIÓN MEDIA 1.132 Hallar la desviación media de los conjuntos de números del Problema 1.125. 1.133 Hallar la desviación media de las alturas de los 100 estudiantes de la Universidad XYZ (Tabla 1.1) 1.134 Hallar los valores absolutos de (a) -18,2, (b) +3,58, (c) 6,21, (d) 0, (e) – 3,52. 1.135 Hallar la desviación media del conjunto (a) 3, 7, 9, 5 y (b) 2,4, 1,6, 3,8, 4,1, 3,4. 1.136 Hallar la desviación media de los conjuntos de números del Problema 1.125. 1.137 Hallar la desviación media de las cargas máximas del Problema 1.52, Tabla 1.17. 1.138 (a) (b) 1.139 Para el conjunto de números 8, 10, 9, 12, 4, 8, 2, hallar la desviación media respecto de (a) la media y (b) la mediana. Verificar que la desviación media de la mediana no es mayor que la de la media. 1.140 Para la distribución de la Tabla 1.18, Problema 1.53, hallar la desviación media respecto de (a) la media y (b) la mediana. 1.141 Para la distribución de la Tabla 1.20, Problema 1.55, hallar la desviación media respecto de (a) la media y (b) la mediana. 1.142 Explicar por qué la desviación media es o no una buena medida de dispersión para la distribución de la Tabla 1.21 del Problema 1.78. y (f) 4,00 – 2,36 Hallar la desviación media de los diámetros del Problema 1.54, Tabla 1.19. ¿Qué porcentaje de ellos está entre ( ± DM), ( ± 2 DM) y ( ± 3 DM)? Estadística y Diseño Experimental Página - 40 1.143 Deducir fórmulas de compilación para calcular la desviación media respecto de (a) la media y (¿>) la mediana, de una distribución de frecuencias. Aplicar estas fórmulas a la verificación de los resultados de los Problemas 1.140 y 1.141. EL RANGO SEMI-INTERCUARTILAR 1.144 Hallar el rango semi-intercuartilar para la distribución de alturas de la Universidad XYZ (Tabla 1.1) 1.145 Hallar el rango semi-intercuartilar para los salarios de los 65 empleados de la empresa P&R (Tabla 1.6) del Problema 1.7). 1.146 Hallar el rango semi-intercuartilar para la distribución del (a) Problema 1.52, (b) Problema 1.53 y (c) Problema 1.116. Interpretar los resultados claramente en cada caso. 1.147 Hallar el rango semi-intercuartilar para la distribución de (a) Problema 1.31 y (b) Problema 1.78, interpretando los resultados en cada caso. Comparando con otras medidas de dispersión, explicar las ventajas del rango semi-intercuartilar para este tipo de distribuciones. 1.148 Probar que para cualquier distribución de frecuencias el porcentaje total de casos que caen en el intervalo es 50%. ¿Es eso cierto para ? Explicar la respuesta. 1.149 (a) (b) ¿Cómo representaría el rango semi-intercuartilar de una distribución de frecuencias dada? ¿Cuál es la relación del rango semi-intercuartilar con la ojiva de la distribución? EL RANGO PERCENTILAR 10-90 1.150 Hallar el rango percentil 10-90 de las alturas de la Tabla 1.1. 1.151 Hallar el rango percentil 10-90 para las distribuciones de (a) Problema 1.52 y (b) Problema 1.116. Interpretar cada resultado. 1.152 Hallar el rango percentil 10-90 para las distribuciones de (a) Problema 1.31 y (b) Problema 1.78. Interpretar los resultados. ¿Qué ventajas y desventajas ofrece el rango percentil 1090 frente a otras medidas de dispersión? 1.153 ¿Qué ventajas y desventajas tendría un rango percentil 20-80 comparado con el rango percentil 10-90? LA DESVIACIÓN ESTÁNDAR 1.154 Hallar la desviación estándar s de los conjuntos de números del Problema 1.125. 1.155 Hallar la varianza de los conjuntos de números del Problema 1.125. 1.156 Hallar la desviación estándar de las alturas de estudiantes de la Tabla 1.1. Estadística y Diseño Experimental Página - 41 1.157 1.158 1.159 Hallar la desviación estándar de los conjuntos de números (a) 3, 6, 2, 1, 7, 5; (b) 3,2, 4,6, 2,8, 5,2, 4,4 y (c) 0, 0, 0, 0, 0, 1, 1, 1. (a) Sumando 5 a cada número del conjunto 3, 6, 2, 1, 7, 5, obtenemos 8, 11, 7, 6, 12, 10. Probar que ambos conjuntos de números tienen la misma desviación estándar pero diferentes medias. ¿Cómo están relacionadas las medias? (b) Multiplicando cada número en 3, 6, 2, 1, 7, y 5 por 2 y sumando entonces 5, obtenemos el conjunto 11, 17, 9, 7, 19, 15. ¿Cuál es la relación entre la desviación estándar y las medias de ambos conjuntos? (c) ¿Qué propiedades de la media y de la desviación estándar quedan ilustradas por los conjuntos particulares elegidos en las partes (a) y (b)? Hallar la desviación estándar del conjunto de números de la progresión aritmética 4, 10, 16, 22,..., 154. CALCULO DE LA DESVIACIÓN ESTÁNDAR PARA DATOS AGRUPADOS 1.160 Hallar la desviación estándar del conjunto de números 12, 6, 7, 3, 15, 10, 18, 5. 1.161 Hallar la desviación estándar de las alturas de estudiantes de la Universidad XYZ (Tabla 1.1) mediante (a) la fórmula corta y (b) con el método de compilación. 1.162 Por métodos de compilación, hallar (a) la media y (b) la desviación estándar para la distribución de salarios del Problema 1.7. 1.163 La Tabla 1.24 muestra los IQ (coeficientes de inteligencia) de 480 niños de una escuela elemental. Mediante el método de compilación, hallar (a) la media y (b) la desviación estándar. Tabla 1.24 M arca de clase X j 70 74 78 82 86 90 94 98 102 106 110 114 118 122 126 Frecuencia fj 4 9 16 28 45 66 85 72 54 38 27 18 11 5 2 COMPROBACIÓN DE CHARLIER 1.164 Usar la comprobación de Charlier para verificar los cálculos de (a) la media y (b) la desviación estándar, efectuados en el Problema 1.163. CORRECCIONES DE SHEPPARD PARA LA VARIANZA 1.165 Aplicar la corrección de Sheppard para determinar la desviación estándar de los datos del (a) Problema 1.161, (b) Problema 1.162 y (c) Problema 1.163. 1.166 Hallar, para la distribución de frecuencias del Problema 1.12, (a) la media, (b) la desviación estándar, (c) la desviación estándar usando la corrección de Sheppard y (d) la verdadera desviación estándar para los datos sin agrupar. RELACIONES EMPÍRICAS ENTRE MEDIDAS DE DISPERSIÓN 1.167 Para la distribución de alturas de la Universidad XYZ, discutir la validez de las fórmulas empíricas que relacionan (a) desviación media con la desviación estándar y (b) el rango semi-intercuartilar con la desviación estándar. Estadística y Diseño Experimental Página - 42 PROPIEDADES DE LA DESVIACIÓN Estándar 1.168 Determinar el porcentaje de los IQ del Problema 1.163 que caen en los rangos (a) ± s, (b) ± 2s y (c) ± 3s. 1.169 Dados los conjuntos de números 2, 5, 8, 11, 14 y 2, 8, 14, hallar (a) la media de cada uno, (b) la varianza de cada uno, (c) la media combinada y (d) la varianza combinada. 1.170 Resolver el Problema 1.169 para los conjuntos 2, 5, 8, 11, 14 y 10, 16, 22. DISPERSIÓN ABSOLUTA Y RELATIVA: COEFICIENTE DE VARIACIÓN 1.171 Un fabricante de tubos de televisión produce dos tipos de tubos, A y B, que tienen vidas medias respectivas A = 1.495 horas y B = 1.875 horas, y desviación estándar de sA = 280 horas y sB = 310 horas. ¿Qué tubo tiene (a) mayor dispersión absoluta y (b) mayor dispersión relativa? 1.172 En un examen final de Estadística, la puntuación media de 150 estudiantes fue de 78, y la desviación estándar 8,0. En Álgebra, la media fue 73 y la desviación estándar 7,6. ¿En qué materia fue mayor (a) la dispersión absoluta y (b) la dispersión relativa? 1.173 Hallar el coeficiente de variación para los datos de (a) Problema 1.52 y (b) Problema 1.116. 1.174 (a) (b) Definir una medida de la dispersión relativa que pueda utilizarse para un conjunto de datos cuyos cuartiles son conocidos. Ilustrar el cálculo de la medida definida en (a) mediante los datos del Problema 1.144 VARIABLES TIPIFICADAS: UNIDADES ESTÁNDAR 1.175 Un estudiante obtuvo 84 puntos en el examen final de Matemáticas, en el que la nota media fue 76, y la desviación estándar 10. En el examen final de Física obtuvo 90 puntos, siendo la media 82 y la desviación estándar 16. ¿En qué examen sobresalió más? 1.176 (a) Convertir los IQ del Problema 1.163 en un recuento estándar y (b) construir una gráfica de frecuencias relativas versus recuento estándar. 1.177 En los exámenes a que se refiere el Problema 1.172, un alumno obtuvo 75 en Estadística y 71 en Álgebra. ¿En qué examen sobresalió más? 1.178 Convertir el conjunto 6, 2, 8, 7, 5 en un recuento estándar (o referencias tipificadas). 1.179 Probar que la media y la desviación estándar de un recuento estándar son 0 y 1, respectivamente. Ilustrar esto mediante el Problema 1.178. Estadística y Diseño Experimental Página - 43