Estadística Apuntes Unidad 1 (parte final) (1)

Anuncio
La desviación típica y otras medidas
de dispersión
DISPERSIÓN O VARIACIÓN
La dispersión o variación de los datos intenta dar una idea de cuan esparcidos se encuentran éstos.
Hay varias medidas de tal dispersión, siendo las más comunes el rango, la desviación media, el
rango semi-intercuartilar, el rango percentilar 10-90 y la desviación típica o estándar.
EL RANGO
El rango de un conjunto de números es la diferencia entre el mayor y el menor de todos ellos.
EJEMPLO 1.
El rango del conjunto 2, 3, 3, 5, 5, 5, 8, 10, 12 es 12 - 2 = 10. A veces el rango se
indica dando el par de valores extremos; así, en este ejemplo, seria 2-12.
LA DESVIACIÓN MEDIA
La desviación media o desviación promedio, de un conjunto de N números X1 , X2 , …, XN es
abreviada por DM y se define como
(19)
donde
es la media aritmética de los números y |Xj –
| es el valor absoluto de la desviación de Xj
respecto de (El valor absoluto de un número es el número sin signo y se denota con dos barras
verticales; así |-4| = 4, |+3| = 3, |6| = 6 y |-0.84| = 0.84.)
EJEMPLO 2.
Hallar la desviación media del conjunto 2, 3, 6, 8, 11.
Si X1 , X2 , ..., XK ocurren con frecuencias f1, f2 , ... , fK , respectivamente, la desviación media se puede
escribir como
(20)
Esta forma es útil para datos agrupados, donde los Xj representan las marcas de clase y los fj son las
correspondientes frecuencias de clase.
Ocasionalmente se define la desviación media en términos de desviaciones absolutas respecto de la
mediana u otro promedio, en vez de la media. Una propiedad interesante de la suma
Estadística y Diseño Experimental
Página - 34
es que es mínima cuando a es la mediana (o sea, la desviación media respecto de la mediana es
mínima).
Nótese que sería más apropiado usar la terminología desviación media absoluta que desviación
media.
EL RANGO SEMI-INTERCUARTILAR
El rango semi-intercuartilar, o desviación cuartilar, de un conjunto de datos se denota por Q y se
define como
(21)
donde Q1 y Q3 son el primer y tercer cuartil de esos datos. El rango intercuartilar Q3 – Q1 también
se usa a veces, pero menos que el rango semi-intercuartilar, como medida de dispersión.
EL RANGO PERCENTILAR 10-90
El rango percentilar 10-90 de un conjunto de datos se define por
Rango percentilar 10-90 = P90 - P10
(22)
donde Pl0 y P90 son los décimo y nonagésimo percentiles de esos datos. Puede usarse también el
Rango Semipercentilar 10-90 = ½(P90 - P10 ). Pero no es frecuente.
LA DESVIACIÓN TÍPICA O ESTÁNDAR
La desviación estándar de un conjunto de N números X1 , X2 , ..., XN se denota por s y se define
como
(23)
donde x representa las desviaciones de cada uno de los números Xj respecto de la media . Así que
s es la raíz cuadrada de la media de las desviaciones cuadráticas, o como se le llama en ocasiones,
la desviación raiz-media-cuadrado.
Si X1 , X2 , ..., XK ocurren con frecuencias f1 , f2 , …, fK , respectivamente, la desviación estándar puede
expresarse
(24)
De esta forma resulta útil para datos agrupados.
A veces se define la desviación estándar de los datos de una muestra con (N – 1) reemplazando a N
en los denominadores de (23) y (24), porque el valor resultante da una mejor estimación de la
desviación estándar de la población total. Para grandes valores de N (ciertamente para N > 30), no
hay prácticamente diferencia entre ambas definiciones. Además, cuando se necesita esa mejor
Estadística y Diseño Experimental
Página - 35
estimación, siempre podemos obtenerla multiplicando la aquí definida por
nos quedaremos con la elección (23) y (24).
. Por tanto,
LA VARIANZA
La varianza de un conjunto de datos se define como el cuadrado de la desviación estándar y viene
dada en consecuencia por s2 en las ecuaciones (23) y (24).
Cuando sea necesario distinguir la desviación estándar de una población de la de una muestra de
dicha población, usaremos el símbolo s para esta última y ó (sigma griega minúscula) para la
primera. De modo que s2 y ó2 representarían la varianza de la muestra y la varianza de la
población, respectivamente.
MÉTODOS CORTOS PARA CALCULAR LA DESVIACIÓN ESTÁNDAR
Las ecuaciones (5) y (6) se pueden escribir, respectivamente, en las formas equivalentes
(25)
(26)
donde
denota la media de los cuadros de los diversos valores de X, mientras
cuadrado de la media de los valores de X.
denota el
Si dj = Xj – A son las desviaciones de Xj respecto de alguna constante arbitraria A, los resultados
(25) y (26) se convierten, respectivamente, en
(27)
(28)
Cuando se tienen los datos agrupados en una distribución de frecuencias cuyos intervalos de clase
tienen la misma anchura c, tenemos dj = cuj o sea Xj = A + cuj y (28) pasa a ser
Estadística y Diseño Experimental
Página - 36
(29)
Esta última fórmula proporciona un método muy breve para calcular la desviación estándar y debe
usarse para datos agrupados con igual anchura en sus intervalos de clase. Se llama método de
compilación y es similar al utilizado para el cálculo de la media aritmética de datos agrupados.
PROPIEDADES DE LA DESVIACIÓN ESTÁNDAR
1.
La desviación estándar puede definirse .como
donde a es cualquier valor presuntivo de promedio. De tales desviaciones estándares, la
mínima es aquella para la cual a = , debido a la Propiedad 2 de la media aritmética. Esta
propiedad da una buena razón para adoptar la definición del comienzo.
2.
Para distribuciones normales, resulta (ver figura 1.17):
(a)
(b)
(c)
68,27% de los casos están entre X
& –sy&
X + s (o sea, una desviación
estándar a cada lado de la media).
95,45% de los casos están entre X
& – 2s y &
X + 2s (o sea, dos desviaciones
estándares a cada lado de la media).
99,73% de los casos entre X
& – 3s y &
X + 3s (o sea, tres desviaciones
estándares a cada lado de la media).
Para distribuciones poco asimétricas, los anteriores porcentajes son aproximadamente
válidos.
Figura 1.17
3.
Supongamos que dos conjuntos de N1 y N2 números (o dos distribuciones de frecuencias
con frecuencias totales N1 y N2 tienen varianza dadas por s1 2 y s2 2 , respectivamente, y
tienen la misma media X
&. Entonces la varianza combinada de ambos conjuntos (o de
ambas distribuciones de frecuencias) vendrá dada por
(30)
Estadística y Diseño Experimental
Página - 37
Nótese que esto es una medida aritmética ponderada de las varianzas. El resultado admite
generalización a más conjuntos.
COMPROBACIÓN DE CHARLIER
La comprobación de Charlier en cálculos de la media y de la desviación típica por el método de
compilación hace uso de las identidades
CORRECCIÓN DE SHEPPARD PARA LA VARIANZA
El cálculo de la desviación estándar es algo erróneo como resultado del agrupamiento de datos en
clases (error de agrupamiento). Para corregirlo, se usa la fórmula
(31)
donde c es la anchura del intervalo de clase. La corrección c2 /12 (que se resta) se llama corrección
de Sheppard. Se usa para distribuciones de variables continuas donde las «colas» van
gradualmente hacia cero en ambas direcciones.
Los estadísticos difieren respecto de cuándo y dónde debe aplicarse la corrección. Ciertamente no
debe aplicarse antes de examinar cuidadosamente la situación, pues a menudo tiende a
sobrecorregir, con lo que sustituye un error por otro. En nuestro curso, salvo indicación expresa,
no la usaremos.
RELACIONES EMPÍRICAS ENTRE MEDIDAS DE DISPERSIÓN
Para distribuciones poco sesgadas, se tienen las fórmulas empíricas
(32)
donde:
DM = Desviación media
s
= desviación estándar
y
(33)
donde:
RSQ = Rango Semiintercuartilar
s
= desviación estándar
Ambas son consecuencia del hecho de que la desviación media y el rango semi-intercuartilar para
la distribución normal son iguales, respectivamente, a 0,7979 y 0,6745 veces la desviación
estándar.
Estadística y Diseño Experimental
Página - 38
DISPERSIÓN ABSOLUTA Y RELATIVA: COEFICIENTE DE VARIACIÓN
La variación o dispersión real, tal como se determina en la desviación estándar u otra medida de
dispersión, se llama la dispersión absoluta. Sin embargo, una dispersión (o variación) de 25
centímetros en la medida de 350 metros es muy diferente de esa misma dispersión al medir una
distancia de 10 metros. Una medida de este efecto la da la dispersión relativa, a saber
(34)
Si la dispersión absoluta es la desviación estándar s y el promedio es la media X
& , entonces la
dispersión relativa se denomina coeficiente de variación, o coeficiente de dispersión; se denotará
por V y se define como
(35)
y se expresa en general en forma de porcentaje.
Nótese que el coeficiente de variación es independiente de las unidades usadas. Por esa razón es
útil al comparar distribuciones con unidades diferentes. Una desventaja del coeficiente de
variación es que pierde su utilidad cuando X
& es próxima a cero.
VARIABLES TIPIFICADAS: UNIDADES ESTÁNDAR
La variable que mide la desviación de la medida en unidades de la desviación estándar se llama
una variable tipificada o estandarizada, es adimensional (independiente de las unidades usadas) y
viene dada por
(36)
Si las desviaciones de la media se dan en unidades de la desviación estándar, se dicen expresadas
en unidades estándar, o recuentos estándar. Son de gran valor al comparar distribuciones.
Estadística y Diseño Experimental
Página - 39
PROBLEMAS PROPUESTOS
EL RANGO
1.125
Hallar el rango de los conjuntos (a) 12, 6, 7, 3, 15, 10, 18, 5 y (b) 9, 3, 8, 8, 9, 8, 9, 18.
1.126
Hallar el rango de las alturas de los estudiantes de la Tabla 1.1.
1.127 Hallar el rango de los conjuntos de números (a) 5, 3, 8, 4, 7, 6, 12, 4, 3 y (b) 8,772, 6,453,
10,624, 8,628, 9,434, 6,351.
1.128
Hallar el rango de las cargas máximas del Problema 1.52, Tabla 1.17.
1.129
Hallar el rango de los diámetros de remaches del Problema 1.54, Tabla 1.19.
1.130
La mayor de 50 medidas es 8,34 kilogramos (Kg). Si el rango es 0,46 Kg, hallar la menor
de esas medidas.
1.131
Determinar el rango de los datos en (a) Problema 1.55, (b) Problema 1.78 y (c) Problema
1.20.
LA DESVIACIÓN MEDIA
1.132
Hallar la desviación media de los conjuntos de números del Problema 1.125.
1.133
Hallar la desviación media de las alturas de los 100 estudiantes de la Universidad XYZ
(Tabla 1.1)
1.134
Hallar los valores absolutos de (a) -18,2, (b) +3,58, (c) 6,21, (d) 0, (e) – 3,52.
1.135
Hallar la desviación media del conjunto (a) 3, 7, 9, 5 y (b) 2,4, 1,6, 3,8, 4,1, 3,4.
1.136
Hallar la desviación media de los conjuntos de números del Problema 1.125.
1.137
Hallar la desviación media de las cargas máximas del Problema 1.52, Tabla 1.17.
1.138
(a)
(b)
1.139
Para el conjunto de números 8, 10, 9, 12, 4, 8, 2, hallar la desviación media respecto de (a)
la media y (b) la mediana. Verificar que la desviación media de la mediana no es mayor
que la de la media.
1.140
Para la distribución de la Tabla 1.18, Problema 1.53, hallar la desviación media respecto
de (a) la media y (b) la mediana.
1.141
Para la distribución de la Tabla 1.20, Problema 1.55, hallar la desviación media respecto
de (a) la media y (b) la mediana.
1.142
Explicar por qué la desviación media es o no una buena medida de dispersión para la
distribución de la Tabla 1.21 del Problema 1.78.
y (f) 4,00 – 2,36
Hallar la desviación media de los diámetros del Problema 1.54, Tabla 1.19.
¿Qué porcentaje de ellos está entre (
± DM), (
± 2 DM) y (
± 3 DM)?
Estadística y Diseño Experimental
Página - 40
1.143
Deducir fórmulas de compilación para calcular la desviación media respecto de (a) la
media y (¿>) la mediana, de una distribución de frecuencias. Aplicar estas fórmulas a la
verificación de los resultados de los Problemas 1.140 y 1.141.
EL RANGO SEMI-INTERCUARTILAR
1.144
Hallar el rango semi-intercuartilar para la distribución de alturas de la Universidad XYZ
(Tabla 1.1)
1.145
Hallar el rango semi-intercuartilar para los salarios de los 65 empleados de la empresa
P&R (Tabla 1.6) del Problema 1.7).
1.146
Hallar el rango semi-intercuartilar para la distribución del (a) Problema 1.52, (b) Problema
1.53 y (c) Problema 1.116. Interpretar los resultados claramente en cada caso.
1.147
Hallar el rango semi-intercuartilar para la distribución de (a) Problema 1.31 y (b)
Problema 1.78, interpretando los resultados en cada caso. Comparando con otras medidas
de dispersión, explicar las ventajas del rango semi-intercuartilar para este tipo de
distribuciones.
1.148
Probar que para cualquier distribución de frecuencias el porcentaje total de casos que caen
en el intervalo
es 50%. ¿Es eso cierto para
? Explicar la respuesta.
1.149
(a)
(b)
¿Cómo representaría el rango semi-intercuartilar de una distribución de
frecuencias dada?
¿Cuál es la relación del rango semi-intercuartilar con la ojiva de la distribución?
EL RANGO PERCENTILAR 10-90
1.150
Hallar el rango percentil 10-90 de las alturas de la Tabla 1.1.
1.151
Hallar el rango percentil 10-90 para las distribuciones de (a) Problema 1.52 y (b) Problema
1.116. Interpretar cada resultado.
1.152
Hallar el rango percentil 10-90 para las distribuciones de (a) Problema 1.31 y (b) Problema
1.78. Interpretar los resultados. ¿Qué ventajas y desventajas ofrece el rango percentil 1090 frente a otras medidas de dispersión?
1.153
¿Qué ventajas y desventajas tendría un rango percentil 20-80 comparado con el rango
percentil 10-90?
LA DESVIACIÓN ESTÁNDAR
1.154
Hallar la desviación estándar s de los conjuntos de números del Problema 1.125.
1.155
Hallar la varianza de los conjuntos de números del Problema 1.125.
1.156
Hallar la desviación estándar de las alturas de estudiantes de la Tabla 1.1.
Estadística y Diseño Experimental
Página - 41
1.157
1.158
1.159
Hallar la desviación estándar de los conjuntos de números (a) 3, 6, 2, 1, 7, 5; (b) 3,2, 4,6,
2,8, 5,2, 4,4 y (c) 0, 0, 0, 0, 0, 1, 1, 1.
(a)
Sumando 5 a cada número del conjunto 3, 6, 2, 1, 7, 5, obtenemos 8, 11, 7, 6, 12,
10. Probar que ambos conjuntos de números tienen la misma desviación estándar
pero diferentes medias. ¿Cómo están relacionadas las medias?
(b)
Multiplicando cada número en 3, 6, 2, 1, 7, y 5 por 2 y sumando entonces 5,
obtenemos el conjunto 11, 17, 9, 7, 19, 15. ¿Cuál es la relación entre la desviación
estándar y las medias de ambos conjuntos?
(c)
¿Qué propiedades de la media y de la desviación estándar quedan ilustradas por
los conjuntos particulares elegidos en las partes (a) y (b)?
Hallar la desviación estándar del conjunto de números de la progresión aritmética 4, 10,
16, 22,..., 154.
CALCULO DE LA DESVIACIÓN ESTÁNDAR PARA DATOS AGRUPADOS
1.160
Hallar la desviación estándar del conjunto de números 12, 6, 7, 3, 15, 10, 18, 5.
1.161
Hallar la desviación estándar de las alturas de estudiantes de la Universidad XYZ (Tabla
1.1) mediante (a) la fórmula corta y (b) con el método de compilación.
1.162
Por métodos de compilación, hallar (a) la media y (b) la desviación estándar para la
distribución de salarios del Problema 1.7.
1.163
La Tabla 1.24 muestra los IQ (coeficientes de inteligencia) de 480 niños de una escuela
elemental. Mediante el método de compilación, hallar (a) la media y (b) la desviación
estándar.
Tabla 1.24
M arca de clase X j
70
74
78
82
86
90
94
98
102
106
110
114
118
122
126
Frecuencia fj
4
9
16
28
45
66
85
72
54
38
27
18
11
5
2
COMPROBACIÓN DE CHARLIER
1.164
Usar la comprobación de Charlier para verificar los cálculos de (a) la media y (b) la
desviación estándar, efectuados en el Problema 1.163.
CORRECCIONES DE SHEPPARD PARA LA VARIANZA
1.165
Aplicar la corrección de Sheppard para determinar la desviación estándar de los datos del
(a) Problema 1.161, (b) Problema 1.162 y (c) Problema 1.163.
1.166
Hallar, para la distribución de frecuencias del Problema 1.12, (a) la media, (b) la
desviación estándar, (c) la desviación estándar usando la corrección de Sheppard y (d) la
verdadera desviación estándar para los datos sin agrupar.
RELACIONES EMPÍRICAS ENTRE MEDIDAS DE DISPERSIÓN
1.167
Para la distribución de alturas de la Universidad XYZ, discutir la validez de las fórmulas
empíricas que relacionan (a) desviación media con la desviación estándar y (b) el rango
semi-intercuartilar con la desviación estándar.
Estadística y Diseño Experimental
Página - 42
PROPIEDADES DE LA DESVIACIÓN Estándar
1.168
Determinar el porcentaje de los IQ del Problema 1.163 que caen en los rangos
(a)
± s,
(b)
± 2s y
(c)
± 3s.
1.169
Dados los conjuntos de números 2, 5, 8, 11, 14 y 2, 8, 14, hallar (a) la media de cada uno,
(b) la varianza de cada uno, (c) la media combinada y (d) la varianza combinada.
1.170
Resolver el Problema 1.169 para los conjuntos 2, 5, 8, 11, 14 y 10, 16, 22.
DISPERSIÓN ABSOLUTA Y RELATIVA: COEFICIENTE DE VARIACIÓN
1.171
Un fabricante de tubos de televisión produce dos tipos de tubos, A y B, que tienen vidas
medias respectivas
A = 1.495 horas y
B = 1.875 horas, y desviación estándar de sA =
280 horas y sB = 310 horas. ¿Qué tubo tiene (a) mayor dispersión absoluta y (b) mayor
dispersión relativa?
1.172
En un examen final de Estadística, la puntuación media de 150 estudiantes fue de 78, y la
desviación estándar 8,0. En Álgebra, la media fue 73 y la desviación estándar 7,6. ¿En qué
materia fue mayor (a) la dispersión absoluta y (b) la dispersión relativa?
1.173
Hallar el coeficiente de variación para los datos de (a) Problema 1.52 y (b) Problema
1.116.
1.174
(a)
(b)
Definir una medida de la dispersión relativa que pueda utilizarse para un conjunto
de datos cuyos cuartiles son conocidos.
Ilustrar el cálculo de la medida definida en (a) mediante los datos del Problema
1.144
VARIABLES TIPIFICADAS: UNIDADES ESTÁNDAR
1.175
Un estudiante obtuvo 84 puntos en el examen final de Matemáticas, en el que la nota
media fue 76, y la desviación estándar 10. En el examen final de Física obtuvo 90 puntos,
siendo la media 82 y la desviación estándar 16. ¿En qué examen sobresalió más?
1.176
(a) Convertir los IQ del Problema 1.163 en un recuento estándar y (b) construir una gráfica
de frecuencias relativas versus recuento estándar.
1.177
En los exámenes a que se refiere el Problema 1.172, un alumno obtuvo 75 en Estadística y
71 en Álgebra. ¿En qué examen sobresalió más?
1.178
Convertir el conjunto 6, 2, 8, 7, 5 en un recuento estándar (o referencias tipificadas).
1.179
Probar que la media y la desviación estándar de un recuento estándar son 0 y 1,
respectivamente. Ilustrar esto mediante el Problema 1.178.
Estadística y Diseño Experimental
Página - 43
Descargar