Versión 3.1 240 Intervalos de confianza La estimación confidencial consiste en determinar un posible rango de valores o intervalo, en los que pueda precisarse -con una determinada probabilidad-- que el valor de un parámetro se encuentra dentro de esos límites. Este parámetro será habitualmente una, proporción en el caso de variables dicotómicas y la media o la varianza para distribuciones continuas. La técnica de la estimación confidencial consiste en asociar a cada muestra un intervalo que se sospecha que debe contener al parámetro. A éste se le denomina intervalo de confianza Evidentemente ésta técnica no tiene porqué dar siempre un resultado correcto. A la probabilidad de que hayamos acertado al valor del parámetro que esta contenido en dicho intervalo se la denomina nivel de confianza. También se denomina nivel de significación a la probabilidad de equivocarnos. Dada una variable aleatoria de distribución continua N ( , ) , nos interesamos en primer lugar, en calcular intervalos de confianza para sus dos parámetros, y 2 2 Intervalo de confianza para la media si se conoce la varianza Este caso que planteamos es más a nivel teórico que práctico: difícilmente vamos a poder conocer con exactitud 2 mientras que es desconocido. Sin embargo nos aproxima del modo más simple a la estimación confidencial de medias. Para estimar , el estadístico que mejor nos va a ayudar es X n , del que conocemos su ley de distribución: 2 xn ~ N , n con parámetro desconocido Versión 3.1 241 Esa ley de distribución depende de (desconocida). Lo más conveniente es hacer que la ley de distribución no dependa de ningún parámetro desconocido, para ello tipificamos: z xn ~ N (0,1) n par . desconocido estimador cos as conocidas Este es el modo en que haremos siempre la estimación puntual: buscaremos una relación en la que intervengan el parámetro desconocido junto con su estimador y de modo que estos se distribuyan según una ley de probabilidad conocida. De este modo, fijado un valor pequeño de 0,1 , consideramos la v.a. Z ~ N 0,1 y tomamos un intervalo que contenga una masa de probabilidad de 1 . Este intervalo lo queremos tan pequeño como sea posible. Por ello lo mejor es tomarlo simétrico con respecto a la media (0), ya que allí es donde se acumula más masa. Así las dos colas de la distribución (zonas más alejadas de la media) se repartirán a partes iguales el resto de la masa de probabilidad, . Figura: La distribución N(0,1) y el intervalo más pequeño posible cuya probabilidad es 1 . Por simetría, los cuantiles Z y Z 1 sólo 2 difieren en el signo. Vamos a precisar cómo calcular el intervalo de confianza: 2 Versión 3.1 Sea Z el percentil 100 2 2 242 de Z, es decir, aquel valor de IR que deja por debajo de la cantidad de la masa de probabilidad de Z, es 2 decir: IP Z z 2 2 z 1 2 2 Sea Z 1 el percentil 100 2 IP Z z 1 1 2 2 1 , es decir: 2 z 1 2 1 1 2 Es útil considerar en este punto la simetría de la distribución normal, y observar que los percentiles anteriores son los mismos aunque con el signo cambiado: z z 1 2 2 El intervalo alrededor del origen que contiene la mayor parte de la z , z z , z masa 1 es el intervalo siguiente 1 1 1 2 2 2 2 Lo que habitualmente escribiremos como: z z1 2 De este modo podemos afirmar que existe una probabilidad de 1 que al extraer una muestra aleatoria de la variable en estudio, ocurra: z z 1 2 xn z 1 2 xn z 1 2 n n De este modo un intervalo de confianza al nivel 1 para la esperanza de una normal de varianza conocida es el comprendido entre los valores Versión 3.1 x xn z 2 1 2 n & x 1 2 xn z 1 2 243 n La forma habitual de escribir este intervalo (con su anotación x z , x z x z n 1 esto se abreviada) es n 1 n 1 n n n 2 2 2 puede ver en la Figura siguiente: Figura: Intervalo de confianza para la media. Versión 3.1 244 Intervalo para la media con varianza desconocida Como hemos mencionado, los casos anteriores se presentarán poco en la práctica, ya que lo usual es que sobre una población quizás podamos conocer si se distribuye normalmente, pero el valor exacto de los parámetros y 2 no son conocidos. De ahí nuestro interés en buscar intervalos de confianza para ellos. El problema que tenemos en este caso es más complicado que el anterior, pues no es tan sencillo eliminar los dos parámetros a la vez. Para ello nos vamos a ayudar en lo siguiente: z xn ~ N (0,1) Debemos encontrar un estimador insesgado n para la varianza ˆ n21 .Por el Teorema de Cochran se sabe que: xi xn 2 ~ 2 2 n1 Y se tiene que n i 1 S 2 1 n xi xn n 1 i 1 2 2 2 n 1 Y que además estas dos últimas distribuciones son independientes. A partir de estas relaciones podemos construir una distribución T de student con n-1 grados de libertad. fT (t) t Figura: La distribución t n es algo diferente a la distribución normal N 0,1 cuando n es pequeño, pero conforme éste aumenta, ambas distribuciones se aproximan. Versión 3.1 245 xn Podemos ver que Tn1 Z 1 n21 n 1 n 1 n xi xn 2 n 1 i 1 2 xn ~ t n1 S n Dado el nivel de significación 1 buscamos en una tabla de T student: t n 1 el percentil 100 1 2, tn 1,1 , el cual deja por 2 encima de la cantidad 2 de la masa de probabilidad. Por simetría de la distribución de Student se tiene que t n 1, t n 1,1 , luego 2 2 Figura: La distribución de Student tiene las mismas propiedades de simetría que la normal tipificada. El intervalo de confianza se obtiene a partir del siguiente cálculo: S S S , xn t xn t xn tn 1,1 n 1,1 n 1,1 n n n 2 2 2 Figura: Intervalo de confianza para cuando 2 es desconocido (caso general). Versión 3.1 Donde se tiene que x xn t n1,1 2 2 Sˆn1 n & x 1 xn t 2 n 1,1 2 246 Sˆn1 n Intervalo de confianza para la varianza Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la siguiente propiedad de la distribución Chin cuadrado 2 i 1 xi xn 2 n 1S 2 ~ 2 2 2 n 1 Consideremos dos cuantiles de ésta distribución que nos dejen una probabilidad 1 Figura: Cuantiles de la distribución n21 Versión 3.1 247 Entonces un intervalo de confianza al nivel (1-) para la varianza de una distribución gaussiana (cuyos parámetros desconocemos) lo obtenemos teniendo en cuenta que existe una probabilidad (1-) de que: IP Y 2 & IP Y 2 IP 2 Y 2 1 n 1, n1,1 n 1,1 2 2 2 2 2 n1, 2 de donde se tiene que 2 n1, donde se deduce que Y 2 n 1S 2 n1,1 2 2 2 n1,1 2 2 2 n1, 2 n 1S 2 2 de 2 n1,1 2 n 1S .Por tanto el intervalo 2 2 n1, 2 2 2 n 1S n 1S ; que buscamos para la varianza es 2 2 n1,1 n 1, 2 2 RESUMEN DE INTERVALOS DE CONFIANZA A ESTIMACIÓN DE LA MEDIA A1 Suponga que X1 , X 2 ,....., X n , es una muestra aleatoria de una población normal N(, 2 ) y que se quiere obtener un intervalo de confianza del (1 )100% para . El estimador de n x es ˆ n xn i . i 1 n 2 CONOCIDO Cantidad pivotal Z= xn - ~ N(0,1) / n Intervalo xn z1-/2 n Versión 3.1 248 Nota: Teorema del Límite Central: “Si X1 , X 2 ,....., X n es una muestra aleatoria, de una población X con media y varianza finita 2 xn - ~ N(0,1)“. Debido a este teorema, el entonces Z = / n intervalo anterior es válido para estimar la media de cualquier distribución especialmente cuando n . A2 2 DESCONOCIDO. Se reemplaza (X x ) 2 insesgado Sˆn1 i n n 1 i 1 Cantidad pivotal n 2 Intervalo Sˆn 1 tn 1,1 / 2 IC( ) xn n x T n ~ tn 1 Sˆn 1 / n Nota: a) 2 por su estimador Si n>60 se puede aproximar t n11, / 2 por z1 / 2 pues la distribución t-student converge a la distribución normal. b) El intervalo también es útil cuando la población es aproximadamente normal. B COMPARACIÓN DE DOS MEDIAS X1, X 2 ,.....,X n1 Sean normal una N (1 , 12 ) población e muestra aleatoria de una población Y1 , Y2 ,.....,Yn2 normal N ( 2 , 22 ) . muestra aleatoria de Ambas muestras independientes. Las medias poblacionales 1 y 2 pueden ser comparadas usando la diferencia 1 - 2 , cuyo estimador es ˆ1 - ˆ 2 xn1 yn2 . Casos: Versión 3.1 B1 12 y 22 CONOCIDAS Cantidad Pivotal Z ( xn1 yn2 ) ( 1 2 ) 12 n1 B2 249 Intervalo ~ N (0,1) 22 12 22 IC( 1 2 ) ( xn1 yn2 ) z1 2 n1 n2 n2 12 y 22 DESCONOCIDAS PERO IGUALES Se usa el estimador (n 1)Sˆ12 (n2 1)Sˆ22 ˆ 2 Sˆ p2 1 con n1 n2 2 2 de 2 2 2 ( 1 = 2 ) dado por: n2 2 2 Sˆ ( X i xn ) /(n1 1) & Sˆ2 (Yi yn2 ) /(n2 1) . n1 2 1 2 1 i 1 i 1 Cantidad Pivotal T ( xn1 yn2 ) ( 1 2 ) Sˆ p B3 1 1 n1 n2 ~ tn1n2 2 IC( 1 2 ) ( xn yn ) Sˆ p 1 1 tn n 2,1 / 2 1 2 n1 n2 1 2 12 y 22 DESCONOCIDAS Y DISTINTAS Cantidad Pivotal T Intervalo ( xn1 y n2 ) ( 1 2 ) Sˆ12 Sˆ22 n1 n2 ~ t Intervalo Sˆ12 Sˆ22 IC( 1 2 ) ( xn1 yn2 ) t n1 n2 ,1 2 2 con Sˆ12 Sˆ22 n n2 1 Sˆ 2 2 Sˆ 2 2 1 2 n1 n2 n2 1 n1 1 Versión 3.1 C COMPARACIÓN PAREADOS DE DOS MEDIAS PARA 250 DATOS Sean los pares (X1,Y1), (X2,Y2),.....,(Xn,Yn) donde X1 , X2 ,....., X n puede ser considerada una muestra aleatoria de una población normal N(1, 12 ) e Y1, Y2 ,....., Yn una muestra aleatoria de una población normal N( 2 , 22 ) . Se supone que X i e Yi no son independientes pero si lo son ( Xi , Yi ) de ( X j , Yj ), i j . Se trata de hacer inferencia respecto a 1 2 . Cantidad pivotal T Intervalo d D ~ t n 1 ˆ SD / n con D 1 2 , Sˆ IC( 1 - 2 ) d D tn1,1 / 2 n d i X i Yi , n d di / n X n Yn , i 1 n SˆD2 (di d ) 2 /(n 1) i 1 D ESTIMACIÓN DE LA VARIANZA Suponga que X1 , X2 ,....., X n , es una muestra aleatoria de una población normal N(, 2 ) y que se quiere obtener un intervalo de confianza del (1 )100% para 2 cuyo estimador es n S 2 ( X i X n ) 2 /(n 1) . i 1 D1 DESCONOCIDO Cantidad Pivotal n Q (n 1) Sˆ 2 2 (X i 1 i Intervalo X n )2 2 ~X 2 n 1 (n 1) Sˆ 2 (n 1) Sˆ 2 IC( ) 2 ; 2 n 1,1 / 2 n 1, / 2 2 Versión 3.1 CONOCIDO D2 Cantidad Pivotal n Q 251 ( Xi ) 2 i 1 E 2 Intervalo n ( Xi ) 2 IC( 2 ) i 1 2 ; n ,1 / 2 ~ n 2 n ( Xi ) 2 i 1 2n, / 2 COMPARACIÓN DE DOS VARIANZAS Sean X1, X 2 ,.....,X n1 muestra aleatoria de una población 2 normal N(1 , 1 ) e Y1, Y2 ,.....,Yn2 muestra aleatoria de una población normal N( 2 , 22 ) . Ambas muestras independientes con 1 y 2 desconocidas. Las varianzas poblacionales 1 y 2 2 2 pueden ser comparadas usando el cuociente cuyo estimador es ˆ /ˆ Sˆ12 / Sˆ22 2 1 2 2 n1 , con Sˆ12 ( X i X n1 ) 2 /(n1 1) y i 1 n2 Sˆ22 (Yi Yn2 ) 2 /(n2 1) . i 1 Cantidad Pivotal F F Sˆ / ~ Fn1 1, n2 1 Sˆ / 2 1 2 2 2 1 2 2 Intervalo Sˆ22 Sˆ22 IC( / ) 2 Fn11,n2 1, / 2 ; 2 Fn11,n2 1,1 / 2 ˆ Sˆ1 S1 2 2 2 1 ESTIMACIÓN DE UNA PROPORCIÓN Sea X1 , X 2 ,..., X n una muestra aleatoria de una población n Xi n p Bernoulli de parámetro p cuyo estimador es , i 1 Xi 0,1 , 0 p 1 . Usando el teorema del Límite Central se puede obtener un intervalo aproximado para p si n es grande(n>20): Versión 3.1 IC( p) pˆ G 252 pˆ (1 pˆ ) z1 / 2 n COMPARACIÓN DE PROPORCIONES Sean X1 , X 2 ,.....,X n1 e Y1 , Y2 ,.....,Yn2 muestras aleatorias independientes de poblaciones Bernoulli de parámetros p1 y p 2 respectivamente. Las proporciones poblacionales pueden ser comparadas a través de un intervalo de confianza aproximado, para muestras grandes, dado por: IC( p1 p2 ) ( pˆ1 pˆ 2 ) H pˆ1 (1 pˆ1 ) pˆ 2 (1 pˆ 2 ) z1 / 2 n1 n2 ESTIMACIÓN DE CUALQUIER PARÁMETRO Si X1 , X2 ,....., X n es una muestra aleatoria de una población X con función de densidad f ( x, ) y MV es el estimador máximo verosímil de entonces se pueden usar las propiedades de normalidad asintótica de estos estimadores para obtener un intervalo aproximado para Como 2 ln f ( x, ) n N(0,1) con I1 () E 1 / nI1 () 2 MV entonces el intervalo de confianza asintótico es : 1 ˆ IC( ) MV z1 / 2 ˆ nI1 ( MV ) De esta forma también se pueden obtener los intervalos F y G. Versión 3.1 253 Ejercicio 1 Se sabe que cierta proporción (fija), p, de detonantes es defectuosa. De una partida, se eligen n al azar y se prueban. Definimos las variables aleatorias siguientes: X i 1 si el i-ésimo detonante es defectuoso y 0 en otro caso, i = 1,2,... ,n. Encontrar un intervalo del 95% para p, si en una muestra de tamaño 64 se obtuvo un promedio de 0.55. Solución X 1 , X 2 ,..., X n es una muestra aleatoria que tiene la distribución de probabilidades: P x 0 1 p Px 1 p Luego f ( x, p) p x 1 p1 p ; X = 0,1 n Luego hacemos: Lf x, pˆ p X 1 p 1 X i i i 1 luego ln Lf x, pˆ n ln p i 1 n xi ln(1 p)1 xi i 1 n n i 1 n i 1 . X i ln p (1 X i ) ln(1 p) n (ln p) X i n ln(1 p) ln(1 p) X i i 1 i 1 luego haciendo: n ln( f ( x, pˆ ) 0 p Xi i 1 p n n Xi n i 1 0 pˆ 1 p 1 p X i 1 i n Comprobar que es un máximo n Xi n Xi 2 ln( f ( x, pˆ ) n i 1 i 1 ....... p 2 p2 1 p 2 1 p 2 ˆ MV 0.55 Por lo tanto, p 0.45 0.55 IC( p) 0.55 1.96 0.55 0.12189 0.428;0.672 64 Versión 3.1 254 Ejercicio 2 Sea X 1 , X 2 ,..., X n muestra aleatoria proveniente de una familia: f ( X , ) 1 X I 0,1 X i ) Encontrar el estimador máximo verosímil de y analice sus propiedades. ii) Encontrar un intervalo de confianza asintótico del 95%. iii) Obtener el estimador de momentos para . ¿Cuál es mejor estimador?. Solución; i) Sea X 1 , X 2 ,..., X n m.a. f ( X , ) 1 X I0,1 X Luego la función de verosimilitud ésta dada por: n L X , 1 X i I 0,1 X i i 1 y la función soporte por: n n n n l x, ln 1 X i I 0,1 X i ln1 ln X i ln I 0,1 X i i1 i1 i1 n n n * ln1 ln(X i ) ln I 0,1 X i i 1 i1 Derivando respecto a e igualando a cero: n dl 1 n 1 n n ˆ n 1 n ln(X i ) 0 d 1 i 1 ln(X i ) ln(X i ) i 1 i 1 Verificando condición de Segundo Orden: d 2l n 0 2 d 1 2 con ˆ Propiedades Asintóticamente insesgado Consistente simple Asintóticamente normal Es suficiente n n 1 1 n ln(X i ) i 1 2 0 ˆ ˆMV Versión 3.1 255 Asintóticamente de varianza mínima Invariante bajo transformaciones biunívocas ii) ˆ es asintóticamente normal: ˆ N , CICR d 2l 1 ˆ con: CICR 2 n dp 1 2 n 1 1 n ln(X i ) i 1 n 2 P[X<x]=0,975 x=1,96 P[X<x]=0,025 x=-1,96 P[-1,96< Q < 1,96] = 0,95 ˆ P q q 0,9 CICR P ˆ q CICR ˆ q CICR 0,95 IC1 0,95 n n n 1 1,96 n ln(X ) ln(X i ) i i 1 i 1 1 iii ) Para la población tenemos: EX x1 x dx 0 1 2 Luego, igualando el momento muestral con el poblacional; n 1 1 n X i y despejando , se obtiene: ˆ 2 n i 1 n 2 X i i 1 n X i 1 i n Es preferible el estimador de máxima verosimilitud, ya que bajo condiciones generales cumplen con las propiedades enunciadas anteriormente. Versión 3.1 256 Ejercicios Propuestos Ejercicio 3 La vida útil de un artefacto se supone que es una variable aleatoria que tiene una distribución de densidad exponencial. A) Calcule el estimador de máxima verosimilitud para el parámetro B) Si una muestra de tamaño 90 dio un promedio de vida de 4 años. Estime el intervalo de confianza del 90% para el parámetro. Ejercicio 4 Si el número de llamadas telefónicas es en promedio 1 cada 20 segundos en un conteo de 10 días. A) Estime el intervalo de confianza para el parámetro de 90% B) Calcule el estimador de máxima verosimilitud para el parámetro Considere que el número de llamadas en una hora es una variable aleatoria que tiene una distribución de Poisson. Ejercicio 5 Se sabe que en una ciudad en promedio nacen 505 varones de cada 1000 recién nacidos. Determine el intervalo de confianza del 95% para la probabilidad "ser varón" en un recién nacido. Ejercicio 6 En una prueba a nivel nacional, una muestra da: 3,2; 3,5; 3,6; 3,8; 4,2; 4,5; 4,5; 4,9; 5,1; 5,2; 5,2; 6,2; 6,3; 6,5. Si se supone una distribución normal N( , 2).Determine el intervalo de confianza del 90% para . Ejercicio 7 Un agrónomo está interesado en averiguar el peso (se supone normal) de una nueva variedad de manzana. Una muestra en gramos: 180, 190, 170, 185, 195, 200, 200, 240, 170, 204, 165, 238, 230, 160, 210, 150, 235, 150, 215, 220, 175, 170, 243, 185, 192. Versión 3.1 a) Determine el intervalo de confianza para del 95% b) Determine el intervalo para del 95% si se sabe que =15 gr c) ¿Cuál intervalo da mayor información?. ¿Por qué? 257