16Distribución Muestral de la Proporción

Anuncio
16
Distribución Muestral de la Proporción
16.1 INTRODUCCIÓN
En el capítulo anterior hemos estudiado cómo se distribuye la variable
aleatoria “media aritmética de n valores independientes”. A esta distribución la
hemos llamado distribución muestral de la media. De la misma forma, podemos
estudiar cómo se distribuyen otros estadísticos. En particular, es de gran utilidad
conocer cómo se distribuye la variable aleatoria “proporción de n observaciones
independientes que cumplen una condición especificada” o, lo que es lo mismo, la
distribución muestral de la proporción.
16.2 LA DISTRIBUCIÓN BINOMIAL Y LA PROPORCIÓN DE CASOS
Supongamos una población para la que representamos por π a la proporción
de casos que cumplen una determinada condición, como por ejemplo ser varón,
tener abierto un crédito hipotecario u opinar que actualmente el problema más grave
que afronta España es el paro. Nos preguntamos cuál sería la proporción de casos
(P) que cumplirían esa misma condición en una muestra de n observaciones
1
independientes extraídas de esa población. Como bien sabemos, la variable aleatoria
“número de casos que cumplen una condición”, siendo independientes las
observaciones, se distribuye B(x; n, π). Supongamos, por ejemplo, que el 40% de
una población son favorables a una determinada proposición (π=0.40). Al encuestar
a una m.a.s. de 8 personas el número de personas de la muestra que son favorables
puede ser cualquier valor de 0 a 8. Las probabilidades de cada uno de estos valores
vienen dadas por la distribución binomial. Son las siguientes (véase la tabla II del
libro):
X
0
1
2
3
4
5
6
7
8
P(Xi=X) .017 .090 .209 .279 .232 .124 .041 .008 .001
En realidad la proporción de favorables en cada caso no es más que el número
de favorables partido por el número de encuestados (tamaño de la muestra). Dicho
en otras palabras, la proporción (P) es una transformación lineal del número de casos
(X),
P=
X
n
La probabilidad asociada a cada valor de P es la asociada al valor
correspondiente de X,
X
0
P
0
1
2
3
4
5
6
7
.125 .250 .375 .500 .625 .750 .875
8
1
P(Pi=P) .017 .090 .209 .279 .232 .124 .041 .008 .001
Esta es la forma de expresar las probabilidades de que la proporción de casos
que en la muestra cumplen la condición adopte cada uno de sus valores posibles. En
2
otras palabras, expresa la Distribución Muestral de la Proporción para cuando π =
0.40 y n = 8. Así, la probabilidad de que la proporción de favorables sea 0.125 (uno
de los ocho) es igual a 0.090, mientras que la de que sean favorables al menos la
mitad, P ≥ 0.500 (cuatro o más de los ocho), es la suma de las probabilidades
asociadas a 0.500, 0.625, 0.750, 0.875 y 1; es decir, 0.406. En cada caso, las
probabilidades dependerán de dos cantidades, el tamaño de la muestra (n) y la
probabilidad (π) de que en cada observación individual se cumpla la condición, que
son los parámetros de la distribución binomial. Resumiendo,
Si
Entonces
(a) La probabilidad de que al hacer una observación, ésta
cumpla una determinada condición es igual a π,
(b)
Se realizan n de esas observaciones, de forma
independiente, y
(c) Se calcula la proporción de esos n casos que cumplen la
condición (P),
La variable aleatoria Pi se distribuye B(X; n, π), con
probabilidades correspondientes a X.
Respecto a las características de la distribución, conviene recordar que su
valor esperado y su varianza son los correspondientes a los de la variable
transformada; aplicando las propiedades del producto de una constante,
E(P) = E(X/n) =
1
1
⋅ E(X) = ⋅ n ⋅ π = π
n
n
1
π ⋅ (1 − π )
1
σ (P ) =   ⋅ σ 2 (X ) = 2 ⋅ n ⋅ π ⋅ (1 − π ) =
n
n
n
2
2
3
Es decir, el valor esperado de la proporción es igual al propio parámetro π,
mientras que su varianza depende (como en el caso de la media) del tamaño
muestral. Como n está en el denominador, a mayor tamaño muestral, menor
variabilidad de las proporciones obtenidas en sucesivas muestras.
En el cuadro 16.1 se incluyen algunos ejemplos de cómo operar con la
Distribución Muestral de la Proporción tomando como base la distribución binomial.
CUADRO 16.1
Ejemplos de aplicación de la distribución muestral de la proporción
En la tarea de las 5 tarjetas, adaptada de la de P. C. Wason, los
sujetos deben decidir cuál de las tarjetas levantará como respuesta a
la pregunta del entrevistador. Supongamos una muestra de 15 niños
participantes cuyo nivel de desarrollo cognitivo les impide analizar
correctamente el problema y responden al azar. Obtenga las
probabilidades de que: (a) no acierte ninguno; (b) la proporción de
aciertos no llegue a .50, y (c) la proporción de aciertos sea mayor
de 0.20.
Las probabilidades asociadas a la variable aleatoria
“proporción de sujetos que aciertan” nos vienen dadas por la
distribución binomial con parámetros π=.20 y n=15. Por tanto,
según la tabla correspondiente,
(a) P(Pi=0) = P(Xi=0) = 0.035
(b) P(Pi<0.50) = P(Xi≤7) = 0.996
(c) P(Pi>0.20) = P(Xi≥4) = 0.352
4
16.3
LA DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN CON
MUESTRAS GRANDES
Tal y como vimos al hablar de la distribución binomial, sus probabilidades se
pueden obtener por aproximación a la distribución normal cuando n es grande y π no
es un valor extremo. Decíamos entonces que, en términos prácticos, consideraremos
que esto ocurre cuando n·π ≥ 5 y .20 ≤ π ≤ .80 (aunque con n suficientemente grande
son tolerables valores más extremos de π y, de hecho, los distintos autores proponen
diferentes criterios). Por ello, y dado que las proporciones suelen calcularse sobre
tamaños moderadamente grandes, para obtener probabilidades asociadas a la
proporción habitualmente emplearemos la aproximación de la distribución binomial
a la normal. Recuerde el lector que para un correcto uso de esta aproximación se
debe emplear la corrección por continuidad, aunque si la muestra es moderadamente
grande la diferencia entre hacerlo y no hacerlo no será apreciable. En la
transformación de X a P el término de la corrección queda como 0.5/n. En concreto,



0.5 − π 
0.5 − E(P ) 

+
+
P
P
 = P z ≤

n
n
P(Pi ≤ P ) ≈ P z ≤



σ(P )
π ⋅ (1 − π ) 




n


(
)
(
)
En el cuadro 16.2 de la página siguiente se exponen algunos ejemplos,
mientras que en el ejercicio 4 se ilustra el efecto de la no aplicación de la corrección
por continuidad.
5
CUADRO 16.2
Ejemplos de aplicación de la aproximación de la binomial a la normal en la
distribución muestral de la proporción con muestras grandes
Si en una población el 25% tienen actualmente la intención de
votar al nuevo partido político ABCC y encuestamos a una m.a.s.
de 200 ciudadanos, obtenga las probabilidades de que la proporción
muestral de los que tienen esa intención no se separe de la
proporción poblacional en más de: (a) 3 puntos porcentuales, (b) 5
puntos porcentuales, y (c) 8 puntos porcentuales.
En cada uno de estos casos la pregunta se puede plantear como
la probabilidad de que la proporción de favorables esté
comprendida, respectivamente, entre .22-.28, entre .20-.30 y entre
.17-.33. En todos los casos la distribución es la misma, una
binomial cuyas probabilidades pueden obtenerse por aproximación
a la normal, siendo π = .25 y n = 200 (realizaremos los cálculos sin
hacer la corrección por continuidad):
(a)
.28 − .25
= 0.98
.25 ⋅ (1 − .25)
200
.22 − .25
= −0.98
.25 ⋅ (1 − .25)
200
En la tabla de la normal obtenemos que la probabilidad de
obtener un valor comprendido entre estos es .8365 - .1635 = .6730
(b)
.30 − .25
= 1.63
.25 ⋅ (1 − .25)
200
.20 − .25
= −1.63
.25 ⋅ (1 − .25)
200
La probabilidad de obtener un valor comprendido entre estos dos
es .9484 - .0516 = .8968
(c)
.17 − .25
= −2.61
.25 ⋅ (1 − .25)
200
.33 − .25
= 2.61
.25 ⋅ (1 − .25)
200
La probabilidad es, en este caso, .9955 - .0045 = .9910
6
16.4 PROBLEMAS Y EJERCICIOS
1. Supongamos que cumplen la condición de tener teléfono móvil el 60% de
una población, pero desconocemos este dato. Consideramos que una buena
estimación de este valor sería aquella que diera valores que no se alejen más de 10
puntos porcentuales de ella. En este caso, que la estimación estuviera entre .50 y .70.
Calcule la probabilidad de que la proporción obtenida en una muestra aleatoria
simple se salga de estos márgenes si el tamaño de la muestra es de: (a) 8, o (b) 16.
2. En una determinada población el 30% votarían al partido X en caso de que
se celebrasen mañana las elecciones. Si seleccionamos al azar a una muestra de 200
personas y las encuestamos, obtenga las probabilidades de que:
(a) Las personas que expresen esa intención de voto superen el 38%
(b) El porcentaje de personas que expresen esa intención se separe del porcentaje
poblacional en más del 5%.
3. Supongamos que con una terapia para tratar “el miedo a volar en avión” se
recupera el 80% de los pacientes. Si seleccionamos al azar 16 pacientes que han
acudido a la consulta de un psicólogo clínico con este tipo de fobia, ¿cuál es la
probabilidad de que al menos 12 se hayan recuperado y puedan tomar aviones?
(Obtenga la solución Binomial y la solución por aproximación a la Normal).
4. Un examen de Psicología social consta de 30 preguntas, cada una de las
cuales tiene 4 alternativas de las que sólo una es correcta. Si sabemos que 80
alumnos han respondido al azar a dichas preguntas. ¿Qué proporción de sujetos cabe
esperar que hayan contestado correctamente más de 10 preguntas? (Compruebe la
diferencia entre incluir o no incluir la corrección por continuidad).
7
5. En caminos el 90% de los estudiantes son varones, mientras que en
psicología lo son el 40%. Tenemos un sobre con los cuestionarios ya respondidos
por una m.a.s. de 50 estudiantes, pero como se despegó la etiqueta identificativa no
sabemos de cuál de esas facultades procede. Comprobamos al abrirlo que contiene
25 encuestas de varones y 25 de mujeres. ¿Qué argumento probabilístico se puede
emplear para considerar de qué centro procede?
6. Tras varios años examinando a los alumnos de la asignatura de Análisis de
Datos I, se ha observado que en la primera convocatoria de examen de la asignatura
aprueban el 60% de los alumnos. Antes de empezar el curso se toma una m.a.s. de
10 alumnos matriculados en la asignatura. Conteste a las siguientes cuestiones: a)
¿cuál es la probabilidad de que en la muestra apruebe el 20%?, b) ¿cuál es la
probabilidad de que más del 50% de la muestra apruebe? y c) ¿cuál es la
probabilidad de que suspendan menos del 30% de la muestra?
7.
Tras un estudio de habitabilidad de los hogares madrileños, se ha
descubierto que el 30% están por debajo del límite de habitabilidad. Se ha tomado
una muestra aleatoria simple de 40 hogares madrileños. Conteste a las siguientes
cuestiones (utilizando la corrección por continuidad): a) ¿cuál es la probabilidad de
que como máximo el 50% esté por debajo del nivel de habitabilidad? ; b) ¿cuál es la
probabilidad de que como mínimo lo esté el 25%?
8
16.4.1 Soluciones
1. (a) 0.489
(b) 0.309
2. (a) 0.0062
(b) 0.0594
3. Solución Binomial: 0,798
Solución Normal: 0,791
4. Con corrección: 0.1020
Sin corrección: 0.0694
5. La proporción de varones en la muestra es de .25; la probabilidad de
obtener en una m.a.s. una proporción tan alejada como esa de su parámetro es de
0.0749 si π=0.40, mientras que si π=0.90 la probabilidad es muy pequeña (la
asociada a una z = -7.07 y por tanto ni siquiera viene en la tabla del libro). Este es un
argumento probabilístico para apoyar la hipótesis de que la muestra procede de la
Facultad de Psicología.
6. (a) 0.011
(b) 0.633
7. (a) 0.9983
(b) 0.8051
(c) 0.167
9
Descargar