Inferencia Estadística 1 I Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. Capítulo 6. Introducción a la Inferencia Estadística 6.1 Introducción El principal objetivo de la Estadística es inferir o estimar características de una población que no es completamente observable (o no interesa observarla en su totalidad) a través del análisis de una parte de ella a la que llamamos muestra. Las razones por las que generalmente se trabaja con muestras son principalmente: - Económicas. - Tiempo: si la población es muy grande llevaría tanto tiempo analizarla que incluso la característica de interés podría variar en ese período. Por ejemplo, la tasa de paro. - Destrucción: la medición de cierta característica podría llevar a la destrucción del individuo. Por ejemplo, al estudiar la supervivencia de ciertos animales a un tratamiento. Lo que se hace entonces es analizar la muestra y extrapolar conclusiones desde la muestra a la población. Ahora bien, para considerar válidas en la población las conclusiones obtenidas en la muestra, ésta ha de representar bien 3 a la población (muestra representativa). Por lo tanto, la selección de la muestra es de suma importancia, y para ello hay diversos métodos (métodos de muestreo). Cuando se intuye que la característica en estudio puede presentar valores homogéneos en la población, una forma de obtener una muestra representativa es eligiéndola al azar. A este método de selección de la muestra se le llama muestreo aleatorio simple y es el más sencillo. Otros métodos de muestreo son: muestreo sistemático, muestreo por cuotas, muestreo estratificado, muestreo por conglomerados, etc. El muestreo sistemático es una alternativa al muestreo aleatorio simple. Consiste en listar a los individuos de la población y seleccionar a los individuos para la muestra de k en k a partir de un individuo seleccionado al azar de entre los k primeros, para un k determinado. El muestreo estratificado tiene sentido cuando la característica en estudio no es homogénea en la población, presenta alta variabilidad. Entonces la población se divide en subpoblaciones o estratos, distintos entre sí y dentro de los cuales la característica se comporta de una forma homogénea. En cada estrato se selecciona una muestra aleatoria simple, con tamaño en función del tamaño del estrato, y la unión de todos los individuos seleccionados en cada estrato constituye la muestra de la población. Por ejemplo, si sospechamos que la característica en estudio en la población, como podría ser la opinión acerca de los métodos anticonceptivos, puede variar en función de la edad, la selección de la muestra debería hacerse a partir de estratos de edad. El muestreo por conglomerados consiste en dividir la población en subpoblaciones parecidas entre sí y heterogéneas internamente, de forma que cada conglomerado incluya toda la variabilidad presente en la población. El muestreo por cuotas se utiliza generalmente como alternativa al muestreo estratificado, es más barato y no requiere un listado de individuos para cada estrato. La selección de la muestra debe hacerse simplemente respetando unas cuotas (o porcentajes) de individuos con unas determinadas características, en proporción a las cuotas de individuos con tales características en la población. Por ejemplo, supongamos que la opinión acerca de métodos anticonceptivos puede variar además de por edad por sexo. Una alternativa a la división de la población en estratos de edad y sexo, si conoDelia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. cemos la proporción de cada sexo y la distribución de la edad en la población, es exigir que estas características aparezcan en la misma proporción en la muestra que en la población. Esto conduciría a seleccionar la muestra respetando unas cuotas fijas de hombres y mujeres por grupos de edad. A la proporción de individuos en la población seleccionados en la muestra se le llama fracción de muestreo, esto es, al cociente entre el tamaño muestral y el tamaño de la población. La Inferencia Estadística se puede clasificar en inferencia paramétrica e inferencia no paramétrica. La inferencia paramétrica tiene lugar cuando se conoce la distribución de la variable de estudio en la población, y el interés recae sobre los parámetros desconocidos de la misma. La inferencia no paramétrica tiene lugar si no se conoce la distribución y sólo se suponen propiedades generales de la misma. Nosotros nos centramos en la inferencia paramétrica, y nuestro objetivo será inferir o estimar parámetros poblacionales a partir de la información que nos proporciona una muestra. Supongamos que estudiamos una variable X =Nivel de glucosa en sangre en ayunas en una población de diabéticos y sabemos que presenta una distribución N (µ, 8), donde µ es un parámetro de la distribución y es desconocido. Además sabemos que coincide con la media poblacional, µ = E(X). De haber medido la característica X en todos los individuos de la población, claramente conoceríamos el valor de µ. Como no es el caso, debemos hacernos una idea acerca del valor de µ en base a la información que nos proporciona una muestra seleccionada al azar de la población. Los problemas de inferencia que pueden darse son: de estimación, en los que se busca un valor (estimación puntual) para µ o un conjunto de valores posibles para el mismo (estimación por intervalos de confianza), y de contraste, cuyo objetivo es comprobar si es cierta o falsa cierta hipótesis formulada sobre el parámetro µ. En este tema vemos cómo estimar puntualmente y por intervalos de confianza un parámetro. En el tema siguiente estudiamos constrastes de hipótesis. Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. 6.2 Estimación puntual El problema de estimación puntual, según coméntabamos consiste en asignar un valor a un parámetro poblacional (media, varianza, proporción) en base a la información que nos proporciona una muestra seleccionada al azar de la población. Ejemplo 6.1: Supongamos que queremos estudiar el nivel de glucosa en sangre en ayunas en diabéticos, y esta variable X sigue una distribución N (µ, σ), siendo µ y σ la media y desviación típica poblacional respectivamente, y desconocidas al no haber podido o no haber medido esta variable sobre toda la población diabética. Tendremos que estimar un valor para µ y σ. Con este fin, seleccionamos una muestra aleatoria de n diabéticos, y X1 , ..., Xn serían los niveles de glucosa correspondientes a cada individuo. En principio X1 , ..., Xn son variables aleatorias, independientes, con distribución N (µ, σ), y pasan a ser números en el momento en que a cada uno de esos individuos le medimos el nivel de glucosa en sangre. A los resultados obtenidos, x1 , ..., xn , se le llama realización de la muestra (X1 = x1 , ..., Xn = xn ). Nos centramos en la estimación del parámetro µ. ¿Cómo estimarlo a partir de la muestra?. Como µ es la media poblacional, parece lógico poder estimarla a partir de la media muestral. La media muestral viene dada por − X= X1 + ... + Xn , n y, al ser utilizada para estimar la media poblacional µ, recibe el nombre de estimador de µ. Es una variable aleatoria, y por lo tanto presentará una distribución de probabilidad. En el momento que consideramos la realización de la muestra x1 , ..., xn pasa a ser un número: − x= x1 + ... + xn , n − y x es la estimación puntual de µ. ˆ − µ=x Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. Si los niveles de glucosa observados para 10 individuos que constituyen la muestra son: 163,102,146,131,128,130,146,109,115,210, entonces 163 + ... + 210 = 138 10 ˆ µ= Análogamente, el mejor estimador para la varianza poblacional σ 2 es la varianza muestral S 2 , cuya expresión es S2 = n X (Xi − µ)2 s2 = n X − (xi − x)2 y i=1 n−1 , i=1 n−1 es la estimación puntual de σ 2 , ˆ σ 2 = s2 Para la muestra anterior resulta: s2 = 979.55 Si lo que queremos es estimar una proporción p de individuos en la población que verifican una determinada condición, el mejor estimador para p es la proporción muestral, dada por ˆ p= X , n siendo X el número de individuos que verifican tal condición en la muestra. Así por ejemplo, la proporción de diabéticos con un nivel de glucosa mayor que 110 mg/l se estima en: ˆ p= 8 = 0.8 10 Lógicamente, al estimar un parámetro o característica poblacional por un parámetro muestral generalmente cometemos un error, al que se denomina error de muestreo. Siempre debemos acompañar a una estimación de una medida de su precisión. A la desviación típica del estimador se le llama error típico de Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. estimación. La precisión del estimador es igual a la inversa del error típico de estimación. En el caso de la media el error de muestreo viene dado por ¯ ¯ −¯ ¯ σ E = ¯¯µ − X ¯¯ y el error típico por √ . n La precisión en la estimación depende fundamentalmente del tamaño de la muestra (n) y de la variabilidad en la población (σ 2 ). A mayor tamaño muestral menor error o mayor precisión y a mayor variabilidad mayor error.o menor precisión. En la estimación de la proporción poblacional, el error r de muestreo es E = ¯ ¯ p(1 − p) ˆ¯ ¯ . ¯p − p¯ y el error típico de la estimación viene dado por n 6.3 Distribuciones de muestreo (poblaciones normales) Decíamos que al ser el estimador de un parámetro poblacional una variable aleatoria, presentará una distribución de probabilidad. Vemos a continuación algunos resultados que indican la distribución de la media muestral, la varianza muestral y la proporción muestral en una población normal. También se obtienen las distribuciones de la diferencia de medias muestrales, cociente de varianzas muestrales y diferencia de proporciones muestrales en dos poblaciones normales e independientes. 6.3.1 Media muestral • Sea X1 , ..., Xn una m.a.s. de una población X con distribución N (µ, σ). Entonces, − X= ¶ µ X1 + ... + Xn σ , → N µ, √ n n al ser combinación lineal de variables normales e independientes. Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. 6.3.2 Varianza muestral • Sea X1 , ..., Xn una m.a.s. de una población X con E(X) = µ y V ar(X) = σ2 . El estadístico varianza muestral se define como n X (Xi − µ)2 S2 = i=1 n−1 • Sea X1 , ..., Xn una m.a.s. de una población X con distribución N (µ, σ). Entonces: (n − 1)S 2 → χ2n−1 σ2 − y X y S 2 son independientes. 6.3.3 Diferencia de medias muestrales Sea X1 , ..., Xn1 una m.a.s de una población X, e Y1 , ..., Yn2 una m.a.s. de una población Y. Suponemos que las poblaciones X e Y son independientes y con distribuciones normales N (µ1 , σ 1 ) y N (µ2 , σ 2 ) respectivamente. Se pueden presentar los siguientes casos: (a) σ21 , σ 22 conocidas: − − X − Y → N µ1 − µ2 , o equivalentemente − s σ 21 n1 + σ 22 n2 , − X − Y − (µ1 − µ2 ) q 2 → N (0, 1) Z= σ1 σ 22 + n1 n2 (b) σ21 = σ 22 = σ 2 desconocidas: − siendo − X − Y − (µ1 − µ2 ) q → tn1 +n2 −2, T = 1 Sp n11 + n2 Sp = s (n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2 y S12 y S22 las varianzas muestrales de X e Y respectivamente. Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. 6.3.4 Cociente de varianzas muestrales Sea X1 , ..., Xn1 una m.a.s de una población X, e Y1 , ..., Yn2 una m.a.s. de una población Y. Suponemos que las poblaciones X e Y son independientes y con distribuciones normales N (µ1 , σ 1 ) y N (µ2 , σ 2 ) respectivamente. Entonces, S12 σ2 F = 12 → Fn1 −1,n2 −1 S2 σ 22 Estudiamos además la distribución de una proporción muestral y de la diferencia de dos proporciones muestrales, con muestras procedentes de poblaciones independientes. • Proporción muestral Sea X1 , ..., Xn una m.a.s. de una población X. Sea p la proporción de inviduos en la población que presentan una determinada característica, y ˆ p la proporción muestral. Entonces, r ˆ p → N (p, p(1 − p) ) n Nota: El número de individuos que presentan la característica en la muestra sigue una distribución B(n, p), que con n suficientemente grande se p puede aproximar a una N (np, np(1 − p)). Por lo tanto, la proporción muestral sigue también una distribución Normal con los parámetros arriba indicados. • Diferencia de proporciones muestrales Sea X1 , ..., Xn1 una m.a.s de una población X, e Y1 , ..., Yn2 una m.a.s. de una población Y. Suponemos que las poblaciones X e Y son independiˆ entes. Denotamos por p1 y p2 las proporciones poblacionales y por p1 y ˆ p2 las correspondientes proporciones muestrales. Entonces: ˆ p1 − ˆ p2 → N p1 − p2 , s p1 (1 − p1 ) p2 (1 − p2 ) + n1 n1 Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. Por lo tanto: ˆ ˆ p1 − p2 − (p1 − p2 ) Z=q → N (0, 1) p1 (1−p1 ) p2 (1−p2 ) + n1 n1 6.4 Estimación por Intervalos de Confianza Una alternativa a estimar puntualmente un parámetro poblacional y especificar la precisión de la estimación es dar un intervalo de posibles valores entre los cuales tiene que estar el parámetro con una determinada precisión. Esta es la idea de un intervalo de confianza. Un intervalo de confianza se define como un intervalo de valores entre los cuales se encuentra el parámetro con un cierto grado o nivel de confianza, que fija el investigador y al que denotamos por 1 − α. En esta sección se da la expresión del Intervalo de Confianza para una media, varianza y proporción de una población normal, así como para la diferencia de medias, cociente de varianzas y diferencia de proporciones de dos poblaciones normales e independientes. 6.4.1 Intervalos de Confianza para medias, varianzas y proporciones - Intervalo de confianza para la media de una normal Sea X1 , ..., Xn una m.a.s. de X → N (µ, σ). Varianza conocida (σ 20 ) Varianza desconocida · − µ∈ x± · − µ∈ x± ¸ σ √0 z1− α2 n ¸ S √ t1− α2 ,n−1 n - Intervalo de confianza para la varianza de una normal Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. P n (xi − µ0 )2 i=1 σ2 ∈ χ2 Media conocida (µ0 ) " n P , i=1 1− α 2 ;n (xi − µ0 )2 χ2 α 2 ;n # (n − 1)S 2 (n − 1)S 2 σ ∈ , χ21− α ;n−1 χ2α ;n−1 2 Media desconocida 2 2 - Intervalo de confianza para la diferencia de medias de dos poblaciones normales e independientes Sean X1 , ..., Xn1 una m.a.s. de X → N (µ1 , σ 1 ) y Y1 , ..., Yn2 una m.a.s. de Y → N (µ2 , σ2 ), independientes. · ¸ σ1 σ2 µ1 − µ2 ∈ x − y ± z + n1 n2 r · ¸ 1 1 − − α µ1 − µ2 ∈ x − y ± t1− 2 ;n1 +n2 −2 Sp + n1 n2 − Varianzas conocidas Varianzas desconocidas pero iguales (σ2 ) con Sp = s − r 1− α 2 (n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2 - Intervalo de confianza para el cociente de varianzas de dos poblaciones normales e independientes Medias conocidas Medias desconocidas P n2 σ 22 ∈ i=1 n1 σ 21 P (yi − µ2 ) 2 n2 P n1 F α2 ;n1 ,n2 , i=1 n1 P 2 n2 2 (yi − µ2 ) (xi − µ1 ) (xi − µ1 ) i=1 # " i=1 S22 F α2 ;n1 −1,n2 −1 S22 F1− α2 ;n1 −1,n2 −1 σ 22 ∈ , σ 21 S12 S12 n1 F1− α2 ;n1 ,n2 2 n2 - Intervalo de confianza para una proporción Sea X1 , ..., Xn una m.a.s. de X → Bernoulli(p). ˆ p ∈ p ± z1− α2 s ˆ ˆ p(1 − p) n Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. - Intervalo de confianza para la diferencia de proporciones Sean X1 , ..., Xn1 una m.a.s. de X → Bernoulli(p1 ) y Y1 , ..., Yn2 una m.a.s. de Y → Bernoulli(p2 ). p1 − p2 ∈ siendo pˆ1 − ˆ p2 ± z1− α2 s ˆ ˆ pT = ˆ ˆ ˆ ˆ pt (1 − pT ) pt (1 − pT ) , + n1 n2 ˆ n1 p1 + n2 p2 n1 + n2 Ejemplo 6.2: En una encuesta de 1500 personas se ha obtenido que presentan depresión el 32%. Se quiere calcular un intervalo de confianza para la proporción de personas con esta enfermedad en la población, p, al 99.5% de confianza. El intervalo de confianza para p al (1 − α)100% de confianza es: s s s ˆ ˆ ˆ ˆ ˆ ˆ p(1 − p) p(1 − p) p(1 − p) ˆ ˆ ˆ p ± z1− α = p − z1− α , p + z1− α2 2 2 n n n Se observa que: - El intervalo depende de la muestra seleccionada - La s amplitud del intervalo depende del error típico de estimación de p, ˆ ˆ p(1 − p) , y mide por lo tanto la precisión de la estimación. Concren ˆ tamente, el error cometido en la estimación s de p por p viene dado por ˆ ˆ ¯ ¯ p(1 − p) ˆ¯ ¯ E = ¯p − p¯ y es menor o igual que z1− α2 con una probabilidad n (1 − α). - A mayor tamaño muestral n, menor amplitud, y por lo tanto mayor precisión en la estimación. Asímismo, cuanto mayor es el nivel de confianza, mayor es el intervalo. y menor precisión se obtiene. Interpretación: De 100 intervalos que obtuviéramos, al poder ser cada intervalo distinto según la muestra seleccionada al azar, (1-α) ∗ 100 de ellos contendrían el verdadero valor de p. Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. En este caso el nivel de confianza es del 99.5%, por lo que 1-α = 0.995 y ˆ z1− α2 = z0.9975 = 3. La proporción muestral es p = 0.32 y el tamaño de la muestra n = 1500. El I.C. para p al 99.5% es entonces: s ˆ ˆ p(1 − p) ˆ p ± z1− α = [0.32 ± 0.036] = [0.284, 0.356] 2 n Por lo tanto, la proporción de individuos con depresión en la población estará entre el 28.4% y el 35.6%, con una confianza del 99.5%. ˆ En la estimación de p por p estamos cometiendo como mucho un error de 0.036 con una probabilidad de 0.995. ¿Cuál debería ser el tamaño de la muestra si se quiere que el error cometido al estimar la proporción sea menor de 0.05 con una probabilidad 0.95?. ¯ ¯ ˆ¯ ¯ Sabemos que el error de estimación E = ¯p − p¯ es menor o igual que s ˆ ˆ p(1 − p) con una probabilidad de (1 − α). En este caso 1-α = 0.95 y z1− α2 n α = 0.05. En consecuencia, el tamaño de muestra n para obtener un error en la estimación inferior o igual a 0.05 con una probabilidad 0.95 debe ser: s r ˆ ˆ p(1 − p) 0.32(1 − 0.32) z1− α2 = 1.96 = 0.05 n n ¶2 µ 1.96 0.32(1 − 0.32) n= 0.05 Ejemplo 6.3: Queremos estudiar la influencia que puede tener el tabaco en el peso de los niños al nacer. Para ello se consideran dos grupos de mujeres embarazadas, 35 no fumadoras y 27 fumadoras, y se obtienen los siguientes datos sobre el peso de sus hijos X (en Kg): Madres no fumadoras: n1 = 35 Madres fumadoras: n2 = 27 − x1 − x2 = 3.6 S1 = 0.5 = 3.2 S2 = 0.8 En ambos grupos los pesos de los recién nacidos proceden de sendas distribuciones normales e independientes, y suponemos que de idénticas varianzas. Obtenemos un intervalo de confianza al 95% para el peso medio en cada grupo y un intervalo de confianza para la diferencia de pesos medios. Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. Sean X1 y X2 los pesos de recién nacidos en madres no fumadoras y fumadoras, respectivamente, con. X1 → N (µ1 , σ 1 ), X2 → N (µ2 , σ 2 ), independientes. • I.C. al 95% para el peso medio de recién nacidos en madres no fumadoras: · ¸ · ¸ S1 0.5 − µ1 ∈ x1 ± √ t1− α2 ,n1 −1 = 3.6 ± √ t0.975,34 n1 35 • I.C. al 95% para el peso medio de recién nacidos en madres fumadoras: · ¸ · ¸ S2 0.8 − α µ2 ∈ x2 ± √ t1− 2 ,n2 −1 = 3.2 ± √ t0.975,26 n2 27 • I.C. al 95% para la diferencia de medias: r · ¸ 1 1 − − + µ1 − µ2 ∈ x1 − x2 ± t1− α2 ;n1 +n2 −2 Sp n1 n2 Hacemos cálculos intermedios, s r (n1 − 1)S12 + (n2 − 1)S22 34 ∗ 0.25 + 26 ∗ 0.64 = = 0.6473, Sp = n1 + n2 − 2 60 t0.975;60 = 2, y el intervalo resulta: " r µ1 −µ2 ∈ 3.6 − 3.2 ± 2 ∗ 0.6473 # 1 1 + = 0.40.±3316 = [0.068, 0.731], 35 27 con lo cual se puede decir que existen diferencias significativas entre ambos pesos, y el hábito de fumar en las madres influye en el peso de los hijos. Concretamente, el peso en que supera un hijo de madre no fumadora al de otro de madre fumadora está comprendido entre los 0.068 kg y los 0.731 kg, con un nivel de confianza del 95%. 6.5 Ejercicios 1. Un psicólogo realiza un test para medir el tiempo de reacción de un sujeto. Por experimentos anteriores conoce que el error de medida del test, dado por su desviación típica es de 0.1 segundos. ¿Cuántas medidas debe hacer al sujeto si se desea que con una probabilidad de 0.99 su error de estimación sea menor que 0.05 segundos?. Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. 2. Se cree que la osteoporosis está relacionada con el sexo. Para ello se elige una muestra aleatoria de 100 hombres mayores de 50 años y una muestra de mujeres en las mismas condiciones. Se obtiene que 10 hombres y 40 mujeres presentan algún grado de osteoporosis. ¿Qué podemos concluir con una confianza del 95%?. 3. Se ha medido el volumen diario de bilis (en litros) de 10 individuos sanos, obteniéndose: 0.98, 0.85, 0.77, 0.92, 1.12, 1.06, 0.89, 1.01, 1.21, 0.77 Obtener un intervalo de confianza al 95% para la producción media diaria de bilis en individuos sanos. Suponer que la muestra procede de una población Normal. 4. La cantidad mínima requerida para que un anestésico surta efecto en una intervención quirúrgica fue por término medio de 50mg, con una desviación típica de 10.2 mg, en una muestra de 60 pacientes. Suponiendo que tal cantidad sigue una distribución Normal: a. Obtener un I.C. al 90% para la varianza poblacional. b. Obtener un I.C. al 95% para la media poblacional. 5. Si realizamos una estimación de un parámetro mediante un intervalo de confianza al 90% y obtenemos un intervalo de muy poca amplitud, ¿qué se puede concluir?. Indica razonadamente cuáles de las siguientes afirmaciones son verdaderas o falsas: (a) Va a ser muy difícil la obtención de una estimación fiable. (b) El rango de valores entre los que está el parámetro, al 90%, es muy pequeño. (c) De 90 intervalos que hiciéramos con muestras al azar, 90 contendrían el verdadero valor del parámetro. Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén. (d) Para poder obtener resultados satisfactorios, el nivel de confianza ha de ser superior al 90%. (e) Si el nivel de confianza hubiera sido del 95% la amplitud habría sido todavía menor y por lo tanto mayor la precisión en la estimación. Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.