16 Distribución Muestral de la Proporción 16.1 INTRODUCCIÓN En el capítulo anterior hemos estudiado cómo se distribuye la variable aleatoria “media aritmética de n valores independientes”. A esta distribución la hemos llamado distribución muestral de la media. De la misma forma, podemos estudiar cómo se distribuyen otros estadísticos. En particular, es de gran utilidad conocer cómo se distribuye la variable aleatoria “proporción de n observaciones independientes que cumplen una condición especificada” o, lo que es lo mismo, la distribución muestral de la proporción. 16.2 LA DISTRIBUCIÓN BINOMIAL Y LA PROPORCIÓN DE CASOS Supongamos una población para la que representamos por π a la proporción de casos que cumplen una determinada condición, como por ejemplo ser varón, tener abierto un crédito hipotecario u opinar que actualmente el problema más grave que afronta España es el paro. Nos preguntamos cuál sería la proporción de casos (P) que cumplirían esa misma condición en una muestra de n observaciones 1 independientes extraídas de esa población. Como bien sabemos, la variable aleatoria “número de casos que cumplen una condición”, siendo independientes las observaciones, se distribuye B(x; n, π). Supongamos, por ejemplo, que el 40% de una población son favorables a una determinada proposición (π=0.40). Al encuestar a una m.a.s. de 8 personas el número de personas de la muestra que son favorables puede ser cualquier valor de 0 a 8. Las probabilidades de cada uno de estos valores vienen dadas por la distribución binomial. Son las siguientes (véase la tabla II del libro): X 0 1 2 3 4 5 6 7 8 P(Xi=X) .017 .090 .209 .279 .232 .124 .041 .008 .001 En realidad la proporción de favorables en cada caso no es más que el número de favorables partido por el número de encuestados (tamaño de la muestra). Dicho en otras palabras, la proporción (P) es una transformación lineal del número de casos (X), P= X n La probabilidad asociada a cada valor de P es la asociada al valor correspondiente de X, X 0 P 0 1 2 3 4 5 6 7 .125 .250 .375 .500 .625 .750 .875 8 1 P(Pi=P) .017 .090 .209 .279 .232 .124 .041 .008 .001 Esta es la forma de expresar las probabilidades de que la proporción de casos que en la muestra cumplen la condición adopte cada uno de sus valores posibles. En 2 otras palabras, expresa la Distribución Muestral de la Proporción para cuando π = 0.40 y n = 8. Así, la probabilidad de que la proporción de favorables sea 0.125 (uno de los ocho) es igual a 0.090, mientras que la de que sean favorables al menos la mitad, P ≥ 0.500 (cuatro o más de los ocho), es la suma de las probabilidades asociadas a 0.500, 0.625, 0.750, 0.875 y 1; es decir, 0.406. En cada caso, las probabilidades dependerán de dos cantidades, el tamaño de la muestra (n) y la probabilidad (π) de que en cada observación individual se cumpla la condición, que son los parámetros de la distribución binomial. Resumiendo, Si Entonces (a) La probabilidad de que al hacer una observación, ésta cumpla una determinada condición es igual a π, (b) Se realizan n de esas observaciones, de forma independiente, y (c) Se calcula la proporción de esos n casos que cumplen la condición (P), La variable aleatoria Pi se distribuye B(X; n, π), con probabilidades correspondientes a X. Respecto a las características de la distribución, conviene recordar que su valor esperado y su varianza son los correspondientes a los de la variable transformada; aplicando las propiedades del producto de una constante, E(P) = E(X/n) = 1 1 ⋅ E(X) = ⋅ n ⋅ π = π n n 1 π ⋅ (1 − π ) 1 σ (P ) = ⋅ σ 2 (X ) = 2 ⋅ n ⋅ π ⋅ (1 − π ) = n n n 2 2 3 Es decir, el valor esperado de la proporción es igual al propio parámetro π, mientras que su varianza depende (como en el caso de la media) del tamaño muestral. Como n está en el denominador, a mayor tamaño muestral, menor variabilidad de las proporciones obtenidas en sucesivas muestras. En el cuadro 16.1 se incluyen algunos ejemplos de cómo operar con la Distribución Muestral de la Proporción tomando como base la distribución binomial. CUADRO 16.1 Ejemplos de aplicación de la distribución muestral de la proporción En la tarea de las 5 tarjetas, adaptada de la de P. C. Wason, los sujetos deben decidir cuál de las tarjetas levantará como respuesta a la pregunta del entrevistador. Supongamos una muestra de 15 niños participantes cuyo nivel de desarrollo cognitivo les impide analizar correctamente el problema y responden al azar. Obtenga las probabilidades de que: (a) no acierte ninguno; (b) la proporción de aciertos no llegue a .50, y (c) la proporción de aciertos sea mayor de 0.20. Las probabilidades asociadas a la variable aleatoria “proporción de sujetos que aciertan” nos vienen dadas por la distribución binomial con parámetros π=.20 y n=15. Por tanto, según la tabla correspondiente, (a) P(Pi=0) = P(Xi=0) = 0.035 (b) P(Pi<0.50) = P(Xi≤7) = 0.996 (c) P(Pi>0.20) = P(Xi≥4) = 0.352 4 16.3 LA DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN CON MUESTRAS GRANDES Tal y como vimos al hablar de la distribución binomial, sus probabilidades se pueden obtener por aproximación a la distribución normal cuando n es grande y π no es un valor extremo. Decíamos entonces que, en términos prácticos, consideraremos que esto ocurre cuando n·π ≥ 5 y .20 ≤ π ≤ .80 (aunque con n suficientemente grande son tolerables valores más extremos de π y, de hecho, los distintos autores proponen diferentes criterios). Por ello, y dado que las proporciones suelen calcularse sobre tamaños moderadamente grandes, para obtener probabilidades asociadas a la proporción habitualmente emplearemos la aproximación de la distribución binomial a la normal. Recuerde el lector que para un correcto uso de esta aproximación se debe emplear la corrección por continuidad, aunque si la muestra es moderadamente grande la diferencia entre hacerlo y no hacerlo no será apreciable. En la transformación de X a P el término de la corrección queda como 0.5/n. En concreto, 0.5 − π 0.5 − E(P ) + + P P = P z ≤ n n P(Pi ≤ P ) ≈ P z ≤ σ(P ) π ⋅ (1 − π ) n ( ) ( ) En el cuadro 16.2 de la página siguiente se exponen algunos ejemplos, mientras que en el ejercicio 4 se ilustra el efecto de la no aplicación de la corrección por continuidad. 5 CUADRO 16.2 Ejemplos de aplicación de la aproximación de la binomial a la normal en la distribución muestral de la proporción con muestras grandes Si en una población el 25% tienen actualmente la intención de votar al nuevo partido político ABCC y encuestamos a una m.a.s. de 200 ciudadanos, obtenga las probabilidades de que la proporción muestral de los que tienen esa intención no se separe de la proporción poblacional en más de: (a) 3 puntos porcentuales, (b) 5 puntos porcentuales, y (c) 8 puntos porcentuales. En cada uno de estos casos la pregunta se puede plantear como la probabilidad de que la proporción de favorables esté comprendida, respectivamente, entre .22-.28, entre .20-.30 y entre .17-.33. En todos los casos la distribución es la misma, una binomial cuyas probabilidades pueden obtenerse por aproximación a la normal, siendo π = .25 y n = 200 (realizaremos los cálculos sin hacer la corrección por continuidad): (a) .28 − .25 = 0.98 .25 ⋅ (1 − .25) 200 .22 − .25 = −0.98 .25 ⋅ (1 − .25) 200 En la tabla de la normal obtenemos que la probabilidad de obtener un valor comprendido entre estos es .8365 - .1635 = .6730 (b) .30 − .25 = 1.63 .25 ⋅ (1 − .25) 200 .20 − .25 = −1.63 .25 ⋅ (1 − .25) 200 La probabilidad de obtener un valor comprendido entre estos dos es .9484 - .0516 = .8968 (c) .17 − .25 = −2.61 .25 ⋅ (1 − .25) 200 .33 − .25 = 2.61 .25 ⋅ (1 − .25) 200 La probabilidad es, en este caso, .9955 - .0045 = .9910 6 16.4 PROBLEMAS Y EJERCICIOS 1. Supongamos que cumplen la condición de tener teléfono móvil el 60% de una población, pero desconocemos este dato. Consideramos que una buena estimación de este valor sería aquella que diera valores que no se alejen más de 10 puntos porcentuales de ella. En este caso, que la estimación estuviera entre .50 y .70. Calcule la probabilidad de que la proporción obtenida en una muestra aleatoria simple se salga de estos márgenes si el tamaño de la muestra es de: (a) 8, o (b) 16. 2. En una determinada población el 30% votarían al partido X en caso de que se celebrasen mañana las elecciones. Si seleccionamos al azar a una muestra de 200 personas y las encuestamos, obtenga las probabilidades de que: (a) Las personas que expresen esa intención de voto superen el 38% (b) El porcentaje de personas que expresen esa intención se separe del porcentaje poblacional en más del 5%. 3. Supongamos que con una terapia para tratar “el miedo a volar en avión” se recupera el 80% de los pacientes. Si seleccionamos al azar 16 pacientes que han acudido a la consulta de un psicólogo clínico con este tipo de fobia, ¿cuál es la probabilidad de que al menos 12 se hayan recuperado y puedan tomar aviones? (Obtenga la solución Binomial y la solución por aproximación a la Normal). 4. Un examen de Psicología social consta de 30 preguntas, cada una de las cuales tiene 4 alternativas de las que sólo una es correcta. Si sabemos que 80 alumnos han respondido al azar a dichas preguntas. ¿Qué proporción de sujetos cabe esperar que hayan contestado correctamente más de 10 preguntas? (Compruebe la diferencia entre incluir o no incluir la corrección por continuidad). 7 5. En caminos el 90% de los estudiantes son varones, mientras que en psicología lo son el 40%. Tenemos un sobre con los cuestionarios ya respondidos por una m.a.s. de 50 estudiantes, pero como se despegó la etiqueta identificativa no sabemos de cuál de esas facultades procede. Comprobamos al abrirlo que contiene 25 encuestas de varones y 25 de mujeres. ¿Qué argumento probabilístico se puede emplear para considerar de qué centro procede? 6. Tras varios años examinando a los alumnos de la asignatura de Análisis de Datos I, se ha observado que en la primera convocatoria de examen de la asignatura aprueban el 60% de los alumnos. Antes de empezar el curso se toma una m.a.s. de 10 alumnos matriculados en la asignatura. Conteste a las siguientes cuestiones: a) ¿cuál es la probabilidad de que en la muestra apruebe el 20%?, b) ¿cuál es la probabilidad de que más del 50% de la muestra apruebe? y c) ¿cuál es la probabilidad de que suspendan menos del 30% de la muestra? 7. Tras un estudio de habitabilidad de los hogares madrileños, se ha descubierto que el 30% están por debajo del límite de habitabilidad. Se ha tomado una muestra aleatoria simple de 40 hogares madrileños. Conteste a las siguientes cuestiones (utilizando la corrección por continuidad): a) ¿cuál es la probabilidad de que como máximo el 50% esté por debajo del nivel de habitabilidad? ; b) ¿cuál es la probabilidad de que como mínimo lo esté el 25%? 8 16.4.1 Soluciones 1. (a) 0.489 (b) 0.309 2. (a) 0.0062 (b) 0.0594 3. Solución Binomial: 0,798 Solución Normal: 0,791 4. Con corrección: 0.1020 Sin corrección: 0.0694 5. La proporción de varones en la muestra es de .25; la probabilidad de obtener en una m.a.s. una proporción tan alejada como esa de su parámetro es de 0.0749 si π=0.40, mientras que si π=0.90 la probabilidad es muy pequeña (la asociada a una z = -7.07 y por tanto ni siquiera viene en la tabla del libro). Este es un argumento probabilístico para apoyar la hipótesis de que la muestra procede de la Facultad de Psicología. 6. (a) 0.011 (b) 0.633 7. (a) 0.9983 (b) 0.8051 (c) 0.167 9